OCR-Auswertung Labormeldeformular

t0bska commented 4 years ago

Um den Workflow in Gesundheitsämtern erheblich zu erleichtern, sollen die Meldungen, die deutschlandweit einheitlich über das Formular gemeldet werden automatisch eingelesen werden. Wir können davon ausgehen, dass das Formular entweder als gescanntes Fax computerausgefüllt vorliegt. (Handschrift hat erstmal keine Priorität.)

Integration in Frontend und Backend ist erstmal kein muss, ein Skript, dass ohne Cloud-Dienste (Datenschutz!) und open source (Kosten!) die Daten irgendwie ausspuckt ist für's erste genug. Tesseract könnte da ein guter Freund sein. Zweiter Schritt wäre es, das dann zu Integrieren.

jogueber commented 4 years ago

vielleicht nicht mal so super schwer--> https://pdfminersix.readthedocs.io/en/latest/api/highlevel.html erstes ergebnis war ganz gut :)

msaeltzer commented 4 years ago

@jojo19893 Das sind tools für die Extraktion von Text aus maschinenlesbaren Pdfs. Ich vermute in der Praxis werden wir ein Bild in einer Pdf haben, welches wir OCRen müssen. Daher wird ein Weg über tesseract notwendig sein. Ich habe code dafür in R. der aber deutlich angepasst werden muss. Ich setze mich übers Wochenende mal dran. Es ist ebenfalls wichtig ausgefüllte Dokumente zu haben. Ich versuche nächste Woche mit einem Laborchef zu sprechen der diese Dinger verfaxt, dann wissen wir mehr. Ich habe heute mit einem Arzt gesprochen der meinte dass die Laborergebnisse für Bluttests direkt digital in einer App bereitgestellt werden. Vielleicht macht es Sinn bei den Laboren nachzuhaken ob die diese Daten direkt maschinenlesbar verschicken können?

jogueber commented 4 years ago

OKay sehr nice ich hab gestern mal kurz auf https://github.com/faustomorales/keras-ocr geschaut sah auch gut aus aber vielleicht ehr als inspiration

ImisDevelopers / 1_011_a_infektionsfall_uebermittellung

OCR-Auswertung Labormeldeformular #158