Création d'un parser XML afin de récupérer les paragraphes de texte dans les XML des articles. Celui-ci fonctionne en trois étapes :
1) Pour chaque article, récupération du contenu de chaque paragraphe (pour l'instant chaque paragraphe est associé à un DOI et à une clé unique (uuid4) puis détection des références au figures pour chacun. Il s'agit d'un dictionnaire "dict_text"
2) Pour chaque article, récupération des métadonnées sur les figures (fig_label, graphic_ref, caption). Il s'agit d'un dictionnaire "dict_figures"
3) Puis, utilisation d'une fonction d'association : référence à une figure dans un paragraph vers la graphic_ref dans la figure. Il s'agit de lier les deux dictionnaires. En gros il faudra ici voir avec l'équipe d'extraction des images des pdf pour bien avoir les mêmes keys des figures afin que cette fonction fasse ressortir les bonnes images correspondantes.
pubmed parser https://github.com/titipata/pubmed_parser
Création d'un parser XML afin de récupérer les paragraphes de texte dans les XML des articles. Celui-ci fonctionne en trois étapes : 1) Pour chaque article, récupération du contenu de chaque paragraphe (pour l'instant chaque paragraphe est associé à un DOI et à une clé unique (uuid4) puis détection des références au figures pour chacun. Il s'agit d'un dictionnaire "dict_text"
2) Pour chaque article, récupération des métadonnées sur les figures (fig_label, graphic_ref, caption). Il s'agit d'un dictionnaire "dict_figures"
3) Puis, utilisation d'une fonction d'association : référence à une figure dans un paragraph vers la graphic_ref dans la figure. Il s'agit de lier les deux dictionnaires. En gros il faudra ici voir avec l'équipe d'extraction des images des pdf pour bien avoir les mêmes keys des figures afin que cette fonction fasse ressortir les bonnes images correspondantes.
Lien vers le XML parser : https://drive.google.com/drive/folders/1Lly3gv9aMM0m4gLfzHasHxqNvnqqZmp-