openjusticebe / upload_ui

This component is part of our service to provide a public and free repository of anonymised belgian court decisions.
https://outil.openjustice.be
GNU General Public License v3.0
2 stars 0 forks source link

Ajout fonctionnalité OCR #3

Closed PieterjanMontens closed 3 years ago

PieterjanMontens commented 3 years ago

Si le pdf est en image, passer par OCR

tintamarre commented 3 years ago

Un outil qui marche pas mal : https://ocrmypdf.readthedocs.io/en/latest/

Il faut implémenter une queue par contre, ça met plusieurs dizaine de secondes.

PieterjanMontens commented 3 years ago

Intégration direct dans TIKA: https://cwiki.apache.org/confluence/display/tika/TikaOCR

PieterjanMontens commented 3 years ago

C'est un issue de l'API en fait https://github.com/openjusticebe/anon_api/issues/5 Du coup je ferme.

Côté Tika, j'avais déjà installé Tesseract