data journalism

las motivaciones de porque usar tecnologia en data journalism son almenos dos:

poder extraer conocimiento en grandes cantidades de infromaion. algunas veces los periodistas reciben grandes cantidades de documentos que deben analizar.
poder hacer que la informacion sea encontrable, de tal forma que el proceso de investigacion sea menos dispendioso. encontrar informacion detallada puede tomarle mucho tiempo en la labor periodistica.
poder encontrar historias que de otra forma hubieran tomado mas tiempo y contexto. poder saber que dos situaciones estan relacionadas.

la introduccion, abstract y related-work de este paper te puede dar una idea: https://www.aclweb.org/anthology/D18-2014.pdf

este trabajo de recolectar estas bases de datos lo hacen internamente periodistas ya sean en bases da datos de cada periodico/diario/medio noticioso, o incluso bases de datos hechas por los propuios periodistas. el problema es que esto no escalable, y que ellos no son expertos en como gestionar esta informacion. mucho de este esfuerzo es repetido por periodistas en vez de teneer una plataforma para compartir su informacion. el trabajo de extraer detalles mas pequenos por ejemplo: X es primo de Z. es muy muy dispendioso y repetitivo.

https://en.wikipedia.org/wiki/Database_journalism

colaboracion periodistica:

https://www.icij.org/inside-icij/2013/04/como-sobrevivimos-la-colaboracion-periodistica-mas-grande-de-la-historia/

panama papers

un caso de uso interesante es por ejemplo como minar todos esos leaks de panama papers: https://ijnet.org/es/story/paradise-papers-el-m%C3%A9todo-y-las-herramientas-detr%C3%A1s-de-la-investigaci%C3%B3n

porque este tema es importante para nuestro trabajo de grado?

porque le da contexto, estamos resolviendo un probleam gigante que tienen los periodistas y es: como encongtrar informacion, como buscarla y como colaborar

bases de datos de relaciones

queremos el extractor para poder actualizar y expander una base de datos de relaciones. esta base de datos de relaciones es util para los periodistas. en la lista de abajo hay una serie de proyectos en los cuales se enmarca este nuevo intento.

quien es quien?

historia sobre esta base de datos: https://lasillavacia.com/historia/quien-es-quien-recargado-45841 referencias bases de datos existentes: quien es quien base de datos https://lasillavacia.com/quienesquien

otra base de datos

https://laberintodelpoder.com/

relaciones de poder ???

hace mucho tiempo existia una que era a base de crowdsourincg y se llamaba "relaciones de poder" . no encuentro nada al respecto. pero quien es quien copio muchas ideas de esa primera implementacion

otra mas..

este es un proyecto parecido de alemania: con enfoque en periodismo de datos. de hecho este gano un premio. parte de la explicacion conteinee detalles interesantes de porque estas herramientas son utiles para los periodsitas. http://dev.datajournalismawards.org/project-listing/?project_id=2124

who-is

data sketch tiene su propia base de datos de rleaciones que se llama : "who is". esta base de datos ha sido alimentada por practicantes y periodistas cercanos a datasketch. obviamente esto no es escalable.

linkurious : panama papers

las relaciones linkurious /neo4j en la base de datos de panama papers: https://ijnet.org/es/story/paradise-papers-el-m%C3%A9todo-y-las-herramientas-detr%C3%A1s-de-la-investigaci%C3%B3n

bases de conocimiento (knowledge bases)

este es un tema mas general. las bases de datos de relaciones estaria enmarcada en este contexto de ontologias.

en principio lo que nosotros querriamos crear seria una knowledge base. Este es el formalismo. talvez buscar literatura sobre este asunto le de mas soporte al trabajo de grrado https://en.wikipedia.org/wiki/Knowledge_base

Ver literatura sobre Wikidata, Freebase. Que son? pero solo a nivel conceptual.

datasketch

empoderar con tecnologia a personas del ambito de humanidades. Periodistas, sociologos. porque? manejar datos es muy dificil y dispendioso.

NER (Name entity Recognition)

La ida aqui es explicar en que consiste el problema de encontrar entidades en el texto. explicar los base lines mas sencillos

ToDo:

Relation extraction

La idea aqui es explicar en que consiste la definicion de este problema. i.e: extraer relaciones de texto plano.

el material aqui deberia cubrir los metodos mas simples

ToDo:
ToDo: Material sobre open information extraction

transfer learning

la idea aqui es justificar que queremos usar transfer learning porque tiene modelos que salidos de la caja son capaces de caputurar muchos fenomenos del lenguaje. Debemos mostrar que huggingface ya tiene una interfaz que permite importar y modificar estos modelos facilmente lo cual hace que sea una alternativa para aplicarlo a un problema industrial

literatura sobre transfer learning
literatura sobre transfomers
literatura sobre bert
literatura sobre huggingface

Machine learning life cycle

explicar el ciclo de vida de un modelo de machine leanring

ToDo: mlops
ToDo: machine learning en produccion

Ingenieria de datos

crear un modelo de ml a nivel industrial significa tener pipelines que puedan reproducir un experimento. el proceso de ingeneiria de datos es esencial para poder garantizar el ciclo de vida de un modelo de machine learning.

cuando el proceso de ingeneria de datos no es adeacuado los experimentos no son reproducibles. i.e: la introducion de este paper es un buen argumento https://arxiv.org/pdf/1911.07698.pdf

https://towardsdatascience.com/reproducible-machine-learning-cf1841606805 https://arxiv.org/pdf/1810.04570.pdf

las data pipelines nos ayudan a tener una arquitectura para poder procesar los datos de manera que sea reproducible. tambien ayuda al ciclo de vida de machine learning model porque debemos garantizar que el procesamiento en entrenamiento sea igual que en produccion.

ToDo: compartirte este libro https://www.oreilly.com/library/view/machine-learning-design/9781098115777/

diego6662 / dollop

Literatura del Marco teorico #2