colav / impactu

Colav Impactu Issues and Documentation
BSD 3-Clause "New" or "Revised" License
0 stars 1 forks source link

[kahi_scienti_works] integración productos scienti a la entidad works #284

Open omazapa opened 1 week ago

omazapa commented 1 week ago

https://github.com/colav/impactu/issues/278

En este issue vamos a definir que tipos de productos que vamos a incluir de scienti en la colección works.

Similar a como se hizo para los productos de los Datos Abiertos de Minciencias (DAM) tenemos que definir bien los tipos que entran en works y se cruzan con los datos DAM.

las categorías que tenemos que nutrir de los DAM están descritos en este issue https://github.com/colav/impactu/issues/249

En este documento tenemos la lista de productos de scienti por tipos link

Acá pongo la lista propuesta

Tenemos que revisar para todos los tipos, los datos que hay en raiz y en details y ver como los vamos a integrar.

Para curbrir algunos de los datos de DAM, se tienen que hacer cambios o integrar cambios de kaypacha

Sacar muestras

omazapa commented 5 days ago

para las entidades voy a crear un nuevo campo llamado details donde pondré algunas cosas que no son necesarias a primer nivel y solo pertenecen a scienti.

para works un campo que podría ir allí es application_sector, algunos ejemplos acá https://github.com/colav-playground/impactu_data_samples/blob/main/sector_app.json

el número al frente del texto es el nivel, por que es una clasificación por niveles.

¿están de acuerdo?

omazapa commented 5 days ago

mejor dicho, en details para todos los productos que van en works tenemos la siguiente infomación extra.

{'technical', 'application_sector', 'event', 'article', 'journal', 'music_sheet', 'book', 'memory_chapter', 'course', 'journal_others', 'audiovisual', 'book_chapter', 'oriented_thesis', 'keywords'}

esto hay que procesarlo de acuerdo al tipo, pero algunos como por ejemplo event esta en los papers por ejemplo, lo que indica es un producto resutado de un evento. ¿estos datos les creamos una nueva entrada en el esquema de datos? yo propongo una entrada como:

{'technical', 'application_sector', 'event', 'music_sheet', 'course', 'journal_others', 'audiovisual', 'keywords'}

los otros campos como { 'article', 'journal', 'book', 'memory_chapter', 'book_chapter', 'oriented_thesis'} deben tener la información en las entradas de primer nivel.

omazapa commented 5 days ago

de momento voy a hacer la extracción sin procesar details para tener un punto de partida y datos de referencia.