miércoles, 18 de diciembre de 2013

Extraer subtítulos de un dvd

Aunque desde que existe el dvd podemos acceder a mucho material impensable en la era vhs, o casi, si que es cierto que hay films interesantes que están editados fuera de nuestra zona y que carecen de subtítulos en nuestro idioma, incluso hay ediciones un tanto esperpénticas, como cientos de dvd's editados para España por compañías como Columbia o Universal entre otras que pueden llegar a tener subtítulos en idiomas desde el portugués hasta algún idioma árabe pasando por el suomi, ¡pero increiblemente carecen de subtítulos en castellano! También ocurre que podemos pensar que ciertos films tienen unos subtítulos con una traducción mediocre o que son bastante mejorables. Por suerte existen incontables dvd's procedentes de Estados Unidos u otros países que tienen subtítulos en castellano latino, o en su ausencia subtítulos en inglés. Si queremos españolizar o traducir esos subtítulos una herramienta como Subrip nos va a quitar muchísimo trabajo, ya que extrae los subtítulos que puede contener un dvd creando al mismo tiempo los códigos de tiempo en un formato con el cual podemos trabajar en Subtitle Workshop.

A pesar de que el programa es estupendo no trabaja solo, y debemos de dedicarle un poco de tiempo para conseguir resultados satisfactorios.


Siempre es mejor volcar el contenido del dvd a nuestro disco duro. Una vez que lo tenemos hecho abrimos Subrip, que como podemos ver también tiene otras utilidades, pero la que nos interesa ahora es la que nos permite abrir archivos de dvd-video con extensión vob o ifo para extraer los subtítulos de la película.


Se puede usar indistintamente cualquiera de las dos opciones, vamos a tener los mismos resultados, para este ejemplo usaré la opción vob, para la que debo pulsar en "Open Dir".



Generalmente es fácil identificar donde está el film entre toda la estructura del dvd, ya que será el grupo de archivos VTS_0*** que reuna un número mayor de archivos de cerca de 1 giga de tamaño. Se podría usar cualquiera de los archivos llamados VTS_02_*, pero vamos a abrir el primero, el llamado VTS_02_0.


Como podemos ver identifica correctamente el formato del film, ntsc en este caso, lo cual nos facilitará mucho las cosas a la hora de acoplarlo a los archivos de video y audio. Desplegando los idiomas en los que los subtítulos están disponibles vemos que en este dvd podemos trabajar tanto con los subtítulos en inglés o en francés.  


Subrip trabaja en varios formatos y considero mejor usar el formato srt, con el que podremos trabajar para pulir los subtítulos en más programas, por lo que debemos seleccionar "SubPictures to Text via OCR". De este modo Subrip inspeccionará los subtítulos del dvd y nosotros tendremos que identificar los caracteres e introducirlos a través de nuestro teclado, algo que puede parecer un tanto pesado, pero en realidad no lo es tanto, cada vez que introduzcamos un caracter ya no hará falta que lo hagamos de nuevo, y llegará un momento en que el programa empezará a trabajar solo. Pero ocurre que hay que identificar todos los caracteres tanto en mayúsculas, minúsculas, cursiva, signos de puntuación, caracteres especiales, etc, por lo que otro aspecto muy interesante de Subrip nos va a ser muy útil, como es guardar el archivo de caracteres. Es posible que pocas veces nos sea muy útil y nos ahorre el hecho de tener que teclear parte o todos los caracteres cada vez que trabajamos con un dvd, cada editora de dvd trabaja con unos formatos y fuentes y pocas veces me he encontrado con que los caracteres que ya he introducido procedentes de un film me sirvan para otro, excepto en dvd's dobles o pertenecientes a alguna colección. De todas maneras nunca está de más conservar ese archivo y no cuesta trabajo hacerlo. En el menú "Character Matrix" podemos crear, importar y guardar este archivo. Si "Last TimeCode" no está a cero debemos resetearlo al comenzar  un nuevo trabajo, así los códigos de tiempos quedarán registrados tal y como están en el dvd. Pulsamos "Start".


Vemos que nos sale en recuadro central la primera palabra del subtítulo con la "S" destacada, ese es el caracter que Subrip reconoce pero nos pide que seamos nosotros quienes lo identifiquemos, por lo que debemos introducirlo en la casilla de abajo, "Fill this (these) character(s)", respetando si son mayúsculas o minúsculas, el uso de cursivas es mejor dejarlo a criterio de cada uno si se quiere conservar esa característica de la fuente original.



Subrip seguirá reclamando nuestra atención siempre que se encuentre un caracter desconocido que deberemos introducir. Incluso podrán haber ocasiones cuando nos pida que introduzcamos más de un caracter.


Después de teclear todos los caracteres vemos que en no demasiadas líneas Subrip se pone a trabajar solo y requiere de nuestra atención cada vez menos.


Cuando creamos que haya acabado es mejor que lo verifiquemos con la duración del último subtítulo creado o comprobando que en la barra de tareas nos indique que Subrip ya ha completado su tarea al 100%.


Ahora debemos guardar el trabajo.



 También es el momento de guardar el archivo de caracteres.


Todo este proceso ha sido bastante rápido pero aún nos quedan cosas por hacer. 


Si intentamos abrir ese archivo srt con Subtitle Workshop tal y como está nos encontraremos con que no se puede.


Desconozco los motivos pero tiene una muy fácil solución. Abrimos el archivo que ha creado Subrip con el bloc de notas de windows, seleccionamos y copiamos todo el contenido y lo pegamos en un nuevo archivo txt creado. Ese archivo, con extensión txt, ya lo podemos abrir ahora con Subtitle Workshop, aunque podemos cambiarle la extensión a srt sin ningún problema.



Una vez abierto el archivo en Subtitle Workshop podemos verificar ciertos aspectos más a fondo.


Podemos borrar líneas que puedan nos interesarnos, como las que se añaden a subtítulos creados para personas con discapacidad auditiva y que describen aspectos que no son necesarios para quienes aún conservamos nuestros oídos más o menos en forma. Normalmente estas líneas están entre paréntesis por lo que es muy fácil encontrarlas usando el comando "Search" del programa. Ese tipo de subtítulos también pueden incluir onomatopeyas, símbolos de notas musicales que identifican cuando alguien canta o indicaciones para identificar a gente que está hablando fuera de plano o a la voz en off.


Un problema que me he encontrado con Subrip es que a veces, aunque hayamos identificado correctamente la ele minúscula, aparecen como I latinas mayúsculas, pero siempre podemos usar el comando buscar y reemplazar para cambiar todas las I latinas mayúsculas por la l minúscula. Aunque eso nos perjudique, ya que habrá alguna I mayúscula correcta y la habremos cambiado a una l, en realidad no hay demasiadas palabras en un subtítulo, y para volver a tener I (yo, en inglés) se puede buscar " l " y reemplazarlas por I (sin olvidarse de añadir un espacio delante y otro detrás de la l). De todas forma la idea principal de esto en la mayoría de los casos es tener a mano los subtítulos para su traducción o corrección y ese cambio de caracteres es un problema que no ocurre muy a menudo. 


También hay que prestar atención a los números ya que no es raro que los formados por dos dígitos o más tengan un espacio innecesario que deberemos borrar.


Siempre es muy interesante chequear el archivo para errores con Subtitle Workshop. Eso nos puede ayudar para identificar otras posibles deficiencias del subtítulo creado.