Publicar el corpus de contenido de Telediarios

dcabo commented 4 years ago

En paralelo a #95, que permitirá a cualquiera descargarse sus subtítulos, vamos a publicar el corpus con el que estamos trabajando, para facilitar que otros hagan los análisis que quieran.

Como solución inicial, hasta que sepamos mejor cómo se usa esto, lo más claro parece generar dos corpus: uno con los ficheros de subtítulos originales de la web de RTVE, sin más; y otro con el contenido procesado por nosotros (que ahora mismo es simplemente convertido a frases, porque la extracción de entidades de #10 no está terminada al 100%, así que no la voy a incluir ahora). Voy a generarlos a mano por ahora.

Para generar el primer fichero, corpus_raw.tar.gz, en midas:

$ cd /var/www/verba.civio.es/rtve/staging
$ tar cvzf corpus_raw.tar.gz --exclude=*output* --exclude=*cue* --exclude=*invalid* *vtt *json
$ mv corpus_raw.tar.gz ..

Para generar el corpus con el contenido por frases:

$ cd /var/www/verba.civio.es/rtve/staging
$ mkdir jq
$ cp *.json jq
$ find *.output.json -exec sh -c "jq -c '{text: .text, start_time: .start_time, end_time: .end_time}' < {} > jq/{}" \;
$ cd jq
$ tar cvzf corpus_cooked.tar.gz --exclude=*cue* *json
$ mv corpus_cooked.tar.gz ../..
$ cd ..
$ rm -rf jq

Los ficheros producidos incluyen datos del 23 de diciembre de 2013 hasta el 22 de enero de 2023, inclusive. Vamos a subirlos a Datos Civio, pero de momento los enlaces son:

Subtítulos originales (VTT) con metadatos de RTVE (JSON): corpus_raw.tar.gz
Subtítulos segmentados en frases usando syntok (JSON) con metadatos de RTVE (JSON): corpus_cooked.tar.gz

¿Es este formato cómodo para los que quieren usar los datos?

lirondos commented 4 years ago

Pregunta: cada uno de los ficheros del corpus contiene ¿un telediario completo?

dcabo commented 4 years ago

@lirondos sí, exacto. En el primero (raw), cada fichero VTT es un Telediario, en el formato original, subtítulos. En el segundo (cooked, perdonad los malos nombres), es el mismo contenido pero partido en frases.

Para cada Telediario hay un fichero con un nombre del estilo 123456.json, que tiene metadatos como el nombre del programa (“Telediario 21h”), fecha, imagen...

Si hay una forma más estándar de organizar esto me decís.

davidhguerrero commented 4 years ago

Hola,

he empleado algún tiempo en el preprocesado de los datos y en hacer pruebas con Flair.

Tengo algunas ideas - muy experimentales todavía - para a empezar a encontrar una manera de solucionar algunas de estas cuestiones.

He tenido algunos problemas para instalar Flair en local. Estoy trabajando con Kaggel. Tiene inconvenientes, pero también tiene ventajas =). Si alguien necesita resolver algún aspecto del preprocesado de las noticias ejecutar su código o experimentar con Flair, le comparto el Notebook =).

He leido que @DiegoVicen ha trabajado en mejorar la precisión de la segmentación en bloques . No se se si hay alguien mas trabajando en encontrar algún mecanismo que permita agrupar por temáticas los textos del Telediario.

@dcabo con el preprocesado y lo que he empezado a jugar con Flair, estoy en condiciones de empezar a trabajar cualquiera de las cuestiones que planteabas, no se cual puede ser mas prioritaria =).

Saludos

palmerabollo commented 3 years ago

Hola. Los enlaces de dropbox ya no están disponibles y no he encontrado los datos en Datos Civio. ¿Sabéis si están disponibles en algún sitio y cómo importarlos en mi elasticsearch local para cacharrear?

dcabo commented 3 years ago

Hola, Guido. Perdona, que no le he podido dedicar nada de tiempo a Verba desde que empezó el virus y lo de los corpus sigue estando cogido con pinzas. Acabo de actualizar los enlaces al principio del issue, apuntando a corpus con datos de hasta ayer. Cualquier cosa me dices.

luisignaciomenendez commented 2 years ago

Hola! Sería posible descargar el corpus actualizado a día de hoy?

Muchas gracias de antemano :)

dcabo commented 2 years ago

Hola, @luisignaciomenendez. Acabo de actualizar los ficheros en la entrada original. Cualquier problema me dices. Si acabas usando esto para algún paper o similar, dinos, por favor, nos gusta conocer posibles aplicaciones de los datos.

luisignaciomenendez commented 2 years ago

Sin duda! De momento es todo muy preliminar así que aún no puede llamarse proyecto. En cuanto tengamos algo más encauzado os diremos sin falta. Muchas gracias David

rubiojr commented 1 month ago

¿Es este formato cómodo para los que quieren usar los datos?

Por no marearos pidiendo copias actualizadas, he empezado un pequeño proyectillo (https://github.com/rubiojr/verba-go) para poder tener una copia local de los datos y realizar busquedas locales. Depende de que verba.civio.es esté en pié, pero la sincronización con los scripts del repository es eficiente para que solo actualice el contenido nuevo diario.

De momento solo hay algun script para sincronizar los contenidos localmente y poder buscar en una base de datos local, pero llevo idea de publicar una re-implementacion (compatible) del API en Go sin dependencia de Elasticsearch, y publicar el servicio.

Los datos y la idea de Verba, son fantasticos. Gracias por compartir 😃 .

Espero que a alguien le sirva de ayuda 🚀

dcabo commented 1 month ago

Pues estupendo, Sergio. Si necesitas cualquier cosa me dices. Verba se nos quedó un poco a medias, porque queríamos añadir funcionalidad en plan topic modelling y nos liamos con otras cosas, pero me alegro de que te sirva. Y eso, cualquier cosa aquí estamos.

rubiojr commented 1 month ago

@dcabo esta genial la app, adoro la interface.

De momento estoy cacharreando un poco solo. No veo las noticias 🙈, pero no me importa pasarlas por un LLM y que me de un sumario para empezar el dia 😺. Los transcripts son una fuente de datos que lo facilita. Los sumarios de algunos LLMs salen bastante decentes.

Mi idea es volver a montar el frontend sobre un backend algo menos oneroso, para poder dejarlo en un VPS que me cueste no mas de un par de cafes al mes.

dcabo commented 1 month ago

La interfaz es cosa de @carmen-tm, le alegrará oir que te gusta.

Lo de Elastic sí que es un poco grande para arrancar, sí. Tenía sentido porque queríamos hacer más cosas, pero nos quedamos a medias. Pero la gente de Elastic se portó muy bien y nos dio alojamiento en su nube, así que eso que nos ahorramos.

Lo dicho, cualquier cosa aquí estamos.

davidhguerrero commented 1 month ago

Hola Sergio,

hace algún tiempo, estructuré los datos y los subí a Kaggle, por si pudiera ser de alguna ayuda =)

https://www.kaggle.com/datasets/davidhguerrero/total-dataset-tve

Aunque no dispongo de mucho tiempo, si necesitas cualquier cosa, también puedes contactarme.

Saludos,

David

De: David Cabo @.> Enviado: martes, 15 de octubre de 2024 20:47 Para: civio/verba @.> Cc: davidhguerrero @.>; Comment @.> Asunto: Re: [civio/verba] Publicar el corpus de contenido de Telediarios (#96)

La interfaz es cosa de @carmen-tmhttps://github.com/carmen-tm, le alegrará oir que te gusta.

Lo de Elastic sí que es un poco grande para arrancar, sí. Tenía sentido porque queríamos hacer más cosas, pero nos quedamos a medias. Pero la gente de Elastic se portó muy bien y nos dio alojamiento en su nube, así que eso que nos ahorramos.

Lo dicho, cualquier cosa aquí estamos.

— Reply to this email directly, view it on GitHubhttps://github.com/civio/verba/issues/96#issuecomment-2414764105, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AFNQ5ZSE2UBSZ57X3RZDKB3Z3VPLLAVCNFSM6AAAAABPTEAMMOVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDIMJUG43DIMJQGU. You are receiving this because you commented.Message ID: @.***>

rubiojr commented 1 month ago

Gracias @davidhguerrero 🙇. Al final me decidí por implementar un pequeño api server que implementa (parte de) el API de Verba y sincroniza el corpus una vez al día desde verba.civio.es. Está corriendo en https://verba.rbel.co actualmente 🚀

civio / verba

Publicar el corpus de contenido de Telediarios #96