Open dcabo opened 5 years ago
Vamos a probar Aeneas con un Telediario concreto para ver qué tal funciona. Usamos el que hemos descargado en #11. Es fácil encontrar errores claros en el timing de los subtítulos. Por ejemplo, la frae "Según la ONG" en 14:50 entra tarde, se queda demasiado (3 segundos) y luego hay un hueco de 3 segundos que en el audio no está. ¿Es Aeneas capaz de arreglar esto?
He instalado Aeneas siguiendo sus instrucciones para Homebrew:
$ brew install danielbair/tap/aeneas
Podemos entonces hacer esto:
$ aeneas_execute_task 4743546.mp4 4743546.txt "task_language=spa|os_task_file_format=vtt|is_text_type=subtitles" aeneas.vtt
Le estamos metiendo una versión limpia del vtt, en el que hemos quitado las marcas de orden y tiempo con una regex sencillita: todo lo que sea /^\d.*/
fuera.
El resultado es muy bueno en el sentido de que ha corregido la posición de algunos subtítulos que se iban. Y es bastante robusto cuando se encuentra con trozos que faltan o que directamente dicen otras cosas (hay una parte sobre el alquiler donde el vídeo y el texto son completamente distintos): en seguida vuelve a pillar el hilo. Desgraciadamente, deja "colgando" el subtítulo hasta que empieza el siguiente, o sea, que no deja ningún hueco que permita detectar los bloques, que es el problema que desarrollamos más en #7. También es verdad que lo de confiar en que haya huecos en el audio parece aventurado. O incluso engañoso: fíjate que después de "El Gobierno cree que Israel utilió su avión como escudo." los subtítulos originales dejan un hueco antes de dar entrada a la corresponsal, cuando sigue siendo el mismo tema; Aeneas no deja huecos, porque adelanta y estira el "Sí" de la corresponsal.
Usamos el timing de los subtítulos para partir la transcripción en bloques, pero los datos no son siempre son precisos, y es uno de los motivos por los que la segmentación (#5) no va bien a veces. Dejan el subtítulo colgando en pantalla hasta la siguiente pantalla, por ejemplo.
No sé si ganamos algo aplicando Aeneas o similares para mejorar la precisión de los subtítulos. Obviamente, esto implica descargar el audio, que es más de lo que queríamos hacer inicialmente, pero si nos bajamos el vídeo podemos hacer más cosas con él, como sacar fotogramas, igual merece la pena.
Merecería la pena hacer una prueba con un telediario concreto en cualquier caso, para probar Aeneas.
(Luego he visto que hay otra alternativa, Gentle, que no he probado, vía Mark Boas.)