-> https://github.com/huichen5796/website_for_tabelextrakt
For detailed implementation process, please see the presentation and studienarbeit.
Die ist ein Tool zur...
... von komplexen Tabellen aus Bilddokumenten.
Es basiert auf:
Es wurde für Windows entwickelt, lässt sich aber auch auf anderen Betriebssystemen zum Laufen bringen. Das Tool besteht aus zwei wesentlichen Teilen:
Training von neuronalen Netzen mittels Torch. Dieses Training wird idealerweise auf einer rechenstarken Maschine ausgeführt (z.B. Google Collab mit GPUs).
Erkennung von Tabellen in Bild- oder PDF-Dokumenten auf Basis des zuvor trainierten neuronalen Netzes.
Um beide Programmbausteine lauffähig zu machen, müssen folgende Schritte ausgreführt werden:
Letzte Version von Python hier herunterladen und installieren.
Geforderte Pakete installieren: pip install -r requirements.txt
D:\elasticsearch\
)elasticsearch\bin
elasticsearch.bat
ausführen, um die Installation zu starten.localhost:9200
im Browser eingeben, um erfolgreiche Installation zu testen. → Folgender Text sollte im Browser lesbar sein: "You know you search."Hinweis: Die Version des pip-Packages für Elasticsearch muss zur installierten Version auf dem System passen!
tesseract-ocr-w64-setup-v5.1.0.20220510.exe
) und ausführen.tesseract.exe
zu der Codezeile 22 von functions.py hinzufügen.
pytesseract.pytesseract.tesseract_cmd = '/*Installationspfad*/'
Der Ablauf des Programmes kann anhand den Folgenden nachvollzogen werden:
Die Verarbeitung einzeles Bilds
(Die rote Linie ist die Mittellinie der durch maschinelles Lernen erkannten Tabellenspalte, und die Zellen, die sich auf beiden Seiten der roten Linie innerhalb der grünen Linien befinden, werden in einer Spalte gruppiert.)
Zuweisung der Labels
Labels werden anhand Positon von jeder Zelle erstellt.
Rekonstruktion
Strukturnormalize
Stapelverarbeitung mehrer Bilder
Leistung bei komplexer Tabelle
nach Strukturnormalize: