OCR für hinzugefügte Dokumente

j-dimension commented 6 years ago

Tesseract?

[ ] Installation von Tesseract ggf. Nutzer überlassen, aber eine Konfiguration für die Anbindung bereitstellen
[x] #2294
[ ] OCR für Dokumente in der Akte - auf Nutzeraktion
[ ] "Erkennen" von Nicht-OCR-PDFs, Darstellung mit anderem Icon

j-dimension commented 5 years ago

https://www.naps2.com/ (leider nur Windows)

j-dimension commented 4 years ago

https://github.com/jbarlow83/OCRmyPDF

http://www.tobias-elze.de/pdfsandwich/

j-dimension commented 4 years ago

https://kbdeveloper.qoppa.com/java-program-recognize-ocr-add-text-to-pdf/

j-dimension commented 4 years ago

@RA-crm

j-dimension commented 4 years ago

https://apple.stackexchange.com/questions/76471/make-existing-pdf-searchable-ocr-via-command-line-script

j-dimension commented 4 years ago

@bjk00 : https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-produce-searchable-pdf-output Und für Java gibt es einen Wrapper für die tesseract ocr api: https://github.com/nguyenq/tess4j

j-dimension commented 3 years ago

Text von Duplikat #1338 :

Aktuell gibt es keine Möglichkeit, OCR nachträglich und als Funktion innerhalb der Akte (Dokument -> Rechtsklick -> Texterkennung durchführen) durchzuführen.

ocrmypdf/tesseract könnte serverseitig eingebunden werden, um Texterkennung für einzelne Dokumente nach Bedarf zu ermöglichen.

Im Posteingang/Faxeingang könnte geprüft werden, ob ein PDF schon Text enthält; falls nicht, könnte auch dort die Funktion bereit gestellt werden

Wie vermutlich viele hier haben wir das Thema OCR/Durchsuchbarkeit für unsere Dokumente gelöst, indem wir neue Faxe/Scans durch ocrmypdf mittels tesseract texterkennen lassen. Ungelöst ist leider, wie mit PDFs von Dritten (gescannter Text per Mail) umgegangen werden kann. Auch schicken uns Anwält*innen gern "flache" Schriftsätze ihrer Schreiben per beA (ich kann nur vermuten, was bei denen nach dem kommenden Jahreswechsel los ist).

librelegal commented 11 months ago

Offenbar arbeitet auch Stirling PDF ebenfalls mit OcrMyPdf (https://github.com/Frooodle/Stirling-PDF), was evtl. mit issue #2128 erledigt werden könnte

jlawyerorg / j-lawyer-org

OCR für hinzugefügte Dokumente #74