Open dav009 opened 3 years ago
las motivaciones de porque usar tecnologia en data journalism son almenos dos:
la introduccion, abstract y related-work de este paper te puede dar una idea: https://www.aclweb.org/anthology/D18-2014.pdf
este trabajo de recolectar estas bases de datos lo hacen internamente periodistas ya sean en bases da datos de cada periodico/diario/medio noticioso, o incluso bases de datos hechas por los propuios periodistas. el problema es que esto no escalable, y que ellos no son expertos en como gestionar esta informacion. mucho de este esfuerzo es repetido por periodistas en vez de teneer una plataforma para compartir su informacion. el trabajo de extraer detalles mas pequenos por ejemplo: X es primo de Z. es muy muy dispendioso y repetitivo.
https://en.wikipedia.org/wiki/Database_journalism
un caso de uso interesante es por ejemplo como minar todos esos leaks de panama papers: https://ijnet.org/es/story/paradise-papers-el-m%C3%A9todo-y-las-herramientas-detr%C3%A1s-de-la-investigaci%C3%B3n
porque le da contexto, estamos resolviendo un probleam gigante que tienen los periodistas y es: como encongtrar informacion, como buscarla y como colaborar
queremos el extractor para poder actualizar y expander una base de datos de relaciones. esta base de datos de relaciones es util para los periodistas. en la lista de abajo hay una serie de proyectos en los cuales se enmarca este nuevo intento.
historia sobre esta base de datos: https://lasillavacia.com/historia/quien-es-quien-recargado-45841 referencias bases de datos existentes: quien es quien base de datos https://lasillavacia.com/quienesquien
https://laberintodelpoder.com/
hace mucho tiempo existia una que era a base de crowdsourincg y se llamaba "relaciones de poder" . no encuentro nada al respecto.
pero quien es quien
copio muchas ideas de esa primera implementacion
este es un proyecto parecido de alemania: con enfoque en periodismo de datos. de hecho este gano un premio. parte de la explicacion conteinee detalles interesantes de porque estas herramientas son utiles para los periodsitas. http://dev.datajournalismawards.org/project-listing/?project_id=2124
data sketch tiene su propia base de datos de rleaciones que se llama : "who is". esta base de datos ha sido alimentada por practicantes y periodistas cercanos a datasketch. obviamente esto no es escalable.
las relaciones linkurious /neo4j en la base de datos de panama papers: https://ijnet.org/es/story/paradise-papers-el-m%C3%A9todo-y-las-herramientas-detr%C3%A1s-de-la-investigaci%C3%B3n
este es un tema mas general. las bases de datos de relaciones estaria enmarcada en este contexto de ontologias.
en principio lo que nosotros querriamos crear seria una knowledge base. Este es el formalismo. talvez buscar literatura sobre este asunto le de mas soporte al trabajo de grrado https://en.wikipedia.org/wiki/Knowledge_base
Ver literatura sobre Wikidata, Freebase. Que son? pero solo a nivel conceptual.
empoderar con tecnologia a personas del ambito de humanidades. Periodistas, sociologos. porque? manejar datos es muy dificil y dispendioso.
hackathon con datos de whois: http://datosyguaros.datasketch.co/
La ida aqui es explicar en que consiste el problema de encontrar entidades en el texto. explicar los base lines mas sencillos
La idea aqui es explicar en que consiste la definicion de este problema. i.e: extraer relaciones de texto plano.
el material aqui deberia cubrir los metodos mas simples
la idea aqui es justificar que queremos usar transfer learning porque tiene modelos que salidos de la caja son capaces de caputurar muchos fenomenos del lenguaje. Debemos mostrar que huggingface ya tiene una interfaz que permite importar y modificar estos modelos facilmente lo cual hace que sea una alternativa para aplicarlo a un problema industrial
explicar el ciclo de vida de un modelo de machine leanring
crear un modelo de ml a nivel industrial significa tener pipelines que puedan reproducir un experimento. el proceso de ingeneiria de datos es esencial para poder garantizar el ciclo de vida de un modelo de machine learning.
cuando el proceso de ingeneria de datos no es adeacuado los experimentos no son reproducibles. i.e: la introducion de este paper es un buen argumento https://arxiv.org/pdf/1911.07698.pdf
https://towardsdatascience.com/reproducible-machine-learning-cf1841606805 https://arxiv.org/pdf/1810.04570.pdf
las data pipelines nos ayudan a tener una arquitectura para poder procesar los datos de manera que sea reproducible. tambien ayuda al ciclo de vida de machine learning model porque debemos garantizar que el procesamiento en entrenamiento sea igual que en produccion.
ToDo: compartirte este libro https://www.oreilly.com/library/view/machine-learning-design/9781098115777/
Encontrar material para compartir con Diego para darle contexto al proyecto.
Temas: