ceebios / d4g-season-10

Biomimicry image search
MIT License
1 stars 0 forks source link

-Retrieve image from pdf #5

Open ceebios opened 2 years ago

ceebios commented 2 years ago

Utilisation de la librairie layout parser pour extraire le layout de chaque image (pdf converti en image). La librairie layout parser utilise des modèles pré-entrainés tel Efficient Det sur le dataset Publaynet. Par ailleurs elle comprend pas mal d'utilities très faciles d'utilisation. exploration avec la librairie layoutparser (https://github.com/Layout-Parser/layout-parser) qui extrait bien : tableaux, listes, figures, titres, texte

https://colab.research.google.com/drive/11fl0cYcYNab5Vaa7pC08l7AoYBQ1Lg9f?usp=sharing

exemple de résultat obtenu avec le layout parser exemple_result

A réfléchir comment on stocke nos images, tableaux pour chaque pdf. pour l'instant je mets tout dans des dictionnaires (figures, tableau, paragraph) avec pour clé les noms du pdf et le numéro de page.> extraction des images et tableaux dans. le lien ci-dessous : https://drive.google.com/drive/folders/138mWELQAmMpmvBv14NVAQeS8iNOx7jFF?usp=sharing

https://drive.google.com/drive/folders/1M6PJB34oqYbIL3OVr0hyxZtdcNDq1rTW?usp=sharing

outputs keys : doi et numéro des figures/tableaux