Closed PieterjanMontens closed 3 years ago
Un outil qui marche pas mal : https://ocrmypdf.readthedocs.io/en/latest/
Il faut implémenter une queue par contre, ça met plusieurs dizaine de secondes.
Intégration direct dans TIKA: https://cwiki.apache.org/confluence/display/tika/TikaOCR
C'est un issue de l'API en fait https://github.com/openjusticebe/anon_api/issues/5 Du coup je ferme.
Côté Tika, j'avais déjà installé Tesseract
Si le pdf est en image, passer par OCR