jlawyerorg / j-lawyer-org

Main project containing all submodules for building an entire j-lawyer.org system. Submit issues (bugs, enhancement requests) here.
https://www.j-lawyer.org
GNU Affero General Public License v3.0
50 stars 23 forks source link

OCR für hinzugefügte Dokumente #74

Open j-dimension opened 6 years ago

j-dimension commented 6 years ago

Tesseract?

j-dimension commented 5 years ago

https://www.naps2.com/ (leider nur Windows)

j-dimension commented 4 years ago

https://github.com/jbarlow83/OCRmyPDF

http://www.tobias-elze.de/pdfsandwich/

j-dimension commented 4 years ago

https://kbdeveloper.qoppa.com/java-program-recognize-ocr-add-text-to-pdf/

j-dimension commented 4 years ago

@RA-crm

j-dimension commented 4 years ago

https://apple.stackexchange.com/questions/76471/make-existing-pdf-searchable-ocr-via-command-line-script

j-dimension commented 4 years ago

@bjk00 : https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-produce-searchable-pdf-output Und für Java gibt es einen Wrapper für die tesseract ocr api: https://github.com/nguyenq/tess4j

j-dimension commented 3 years ago

Text von Duplikat #1338 :

Aktuell gibt es keine Möglichkeit, OCR nachträglich und als Funktion innerhalb der Akte (Dokument -> Rechtsklick -> Texterkennung durchführen) durchzuführen.

ocrmypdf/tesseract könnte serverseitig eingebunden werden, um Texterkennung für einzelne Dokumente nach Bedarf zu ermöglichen.

Im Posteingang/Faxeingang könnte geprüft werden, ob ein PDF schon Text enthält; falls nicht, könnte auch dort die Funktion bereit gestellt werden

Wie vermutlich viele hier haben wir das Thema OCR/Durchsuchbarkeit für unsere Dokumente gelöst, indem wir neue Faxe/Scans durch ocrmypdf mittels tesseract texterkennen lassen. Ungelöst ist leider, wie mit PDFs von Dritten (gescannter Text per Mail) umgegangen werden kann. Auch schicken uns Anwält*innen gern "flache" Schriftsätze ihrer Schreiben per beA (ich kann nur vermuten, was bei denen nach dem kommenden Jahreswechsel los ist).

librelegal commented 11 months ago

Offenbar arbeitet auch Stirling PDF ebenfalls mit OcrMyPdf (https://github.com/Frooodle/Stirling-PDF), was evtl. mit issue #2128 erledigt werden könnte