Open t0bska opened 4 years ago
vielleicht nicht mal so super schwer--> https://pdfminersix.readthedocs.io/en/latest/api/highlevel.html erstes ergebnis war ganz gut :)
@jojo19893 Das sind tools für die Extraktion von Text aus maschinenlesbaren Pdfs. Ich vermute in der Praxis werden wir ein Bild in einer Pdf haben, welches wir OCRen müssen. Daher wird ein Weg über tesseract notwendig sein. Ich habe code dafür in R. der aber deutlich angepasst werden muss. Ich setze mich übers Wochenende mal dran. Es ist ebenfalls wichtig ausgefüllte Dokumente zu haben. Ich versuche nächste Woche mit einem Laborchef zu sprechen der diese Dinger verfaxt, dann wissen wir mehr. Ich habe heute mit einem Arzt gesprochen der meinte dass die Laborergebnisse für Bluttests direkt digital in einer App bereitgestellt werden. Vielleicht macht es Sinn bei den Laboren nachzuhaken ob die diese Daten direkt maschinenlesbar verschicken können?
OKay sehr nice ich hab gestern mal kurz auf https://github.com/faustomorales/keras-ocr geschaut sah auch gut aus aber vielleicht ehr als inspiration
Um den Workflow in Gesundheitsämtern erheblich zu erleichtern, sollen die Meldungen, die deutschlandweit einheitlich über das Formular gemeldet werden automatisch eingelesen werden. Wir können davon ausgehen, dass das Formular entweder als gescanntes Fax computerausgefüllt vorliegt. (Handschrift hat erstmal keine Priorität.)
Integration in Frontend und Backend ist erstmal kein muss, ein Skript, dass ohne Cloud-Dienste (Datenschutz!) und open source (Kosten!) die Daten irgendwie ausspuckt ist für's erste genug. Tesseract könnte da ein guter Freund sein. Zweiter Schritt wäre es, das dann zu Integrieren.