ceebios / d4g-season-10

Biomimicry image search
MIT License
1 stars 0 forks source link

Parse the XML and construct dictionaries #6

Open anastasia-enot opened 2 years ago

anastasia-enot commented 2 years ago

pubmed parser https://github.com/titipata/pubmed_parser

Création d'un parser XML afin de récupérer les paragraphes de texte dans les XML des articles. Celui-ci fonctionne en trois étapes : 1) Pour chaque article, récupération du contenu de chaque paragraphe (pour l'instant chaque paragraphe est associé à un DOI et à une clé unique (uuid4) puis détection des références au figures pour chacun. Il s'agit d'un dictionnaire "dict_text"

2) Pour chaque article, récupération des métadonnées sur les figures (fig_label, graphic_ref, caption). Il s'agit d'un dictionnaire "dict_figures"

3) Puis, utilisation d'une fonction d'association : référence à une figure dans un paragraph vers la graphic_ref dans la figure. Il s'agit de lier les deux dictionnaires. En gros il faudra ici voir avec l'équipe d'extraction des images des pdf pour bien avoir les mêmes keys des figures afin que cette fonction fasse ressortir les bonnes images correspondantes.

Lien vers le XML parser : https://drive.google.com/drive/folders/1Lly3gv9aMM0m4gLfzHasHxqNvnqqZmp-