mpuren / agoda

1 stars 2 forks source link

Télécharger les documents tests au format JPG #1

Closed mpuren closed 2 years ago

mpuren commented 2 years ago

En vue d'obtenir des résultats de meilleure qualité, nous allons tester l'OCR sur des JPG haute définition. Il faut récupérer ces documents via l'API IIIF de récupération des images de Gallica : https://api.bnf.fr/fr/api-iiif-de-recuperation-des-images-de-gallica

mpuren commented 2 years ago
  1. Sélection aléatoire de 100 pages (images) entre le 12 novembre 1889 et le 14 octobre 1893
  2. Nettoyage avec le module d'EPITA