Open j-dimension opened 6 years ago
https://www.naps2.com/ (leider nur Windows)
@RA-crm
@bjk00 : https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-produce-searchable-pdf-output Und für Java gibt es einen Wrapper für die tesseract ocr api: https://github.com/nguyenq/tess4j
Text von Duplikat #1338 :
Aktuell gibt es keine Möglichkeit, OCR nachträglich und als Funktion innerhalb der Akte (Dokument -> Rechtsklick -> Texterkennung durchführen) durchzuführen.
ocrmypdf/tesseract könnte serverseitig eingebunden werden, um Texterkennung für einzelne Dokumente nach Bedarf zu ermöglichen.
Im Posteingang/Faxeingang könnte geprüft werden, ob ein PDF schon Text enthält; falls nicht, könnte auch dort die Funktion bereit gestellt werden
Wie vermutlich viele hier haben wir das Thema OCR/Durchsuchbarkeit für unsere Dokumente gelöst, indem wir neue Faxe/Scans durch ocrmypdf mittels tesseract texterkennen lassen. Ungelöst ist leider, wie mit PDFs von Dritten (gescannter Text per Mail) umgegangen werden kann. Auch schicken uns Anwält*innen gern "flache" Schriftsätze ihrer Schreiben per beA (ich kann nur vermuten, was bei denen nach dem kommenden Jahreswechsel los ist).
Offenbar arbeitet auch Stirling PDF ebenfalls mit OcrMyPdf (https://github.com/Frooodle/Stirling-PDF), was evtl. mit issue #2128 erledigt werden könnte
Tesseract?