Utilisation de la librairie layout parser pour extraire le layout de chaque image (pdf converti en image).
La librairie layout parser utilise des modèles pré-entrainés tel Efficient Det sur le dataset Publaynet. Par ailleurs elle comprend pas mal d'utilities très faciles d'utilisation.
exploration avec la librairie layoutparser (https://github.com/Layout-Parser/layout-parser) qui extrait bien : tableaux, listes, figures, titres, texte
A réfléchir comment on stocke nos images, tableaux pour chaque pdf.
pour l'instant je mets tout dans des dictionnaires (figures, tableau, paragraph) avec pour clé les noms du pdf et le numéro de page.>
extraction des images et tableaux dans. le lien ci-dessous : https://drive.google.com/drive/folders/138mWELQAmMpmvBv14NVAQeS8iNOx7jFF?usp=sharing
Utilisation de la librairie layout parser pour extraire le layout de chaque image (pdf converti en image). La librairie layout parser utilise des modèles pré-entrainés tel Efficient Det sur le dataset Publaynet. Par ailleurs elle comprend pas mal d'utilities très faciles d'utilisation. exploration avec la librairie layoutparser (https://github.com/Layout-Parser/layout-parser) qui extrait bien : tableaux, listes, figures, titres, texte
https://colab.research.google.com/drive/11fl0cYcYNab5Vaa7pC08l7AoYBQ1Lg9f?usp=sharing
exemple de résultat obtenu avec le layout parser
A réfléchir comment on stocke nos images, tableaux pour chaque pdf. pour l'instant je mets tout dans des dictionnaires (figures, tableau, paragraph) avec pour clé les noms du pdf et le numéro de page.> extraction des images et tableaux dans. le lien ci-dessous : https://drive.google.com/drive/folders/138mWELQAmMpmvBv14NVAQeS8iNOx7jFF?usp=sharing
https://drive.google.com/drive/folders/1M6PJB34oqYbIL3OVr0hyxZtdcNDq1rTW?usp=sharing
outputs keys : doi et numéro des figures/tableaux