huichen5796 / 2022-studienarbeit-hui-chen

a tool for detecting tables in image and analysing complex header
3 stars 0 forks source link
deep-learning densenet-pytorch elasticsearch ocr table-extraction unet-pytorch

Automatische Erkennung und Konvertierung von Tabellen in Bilddokumenten mit Hilfe von Machine Learning

TODOS

Eine grobe User Interface wurde fertiggestellt.

-> https://github.com/huichen5796/website_for_tabelextrakt

About this

For detailed implementation process, please see the presentation and studienarbeit.

Die ist ein Tool zur...

... von komplexen Tabellen aus Bilddokumenten.

principle

Es basiert auf:

Es wurde für Windows entwickelt, lässt sich aber auch auf anderen Betriebssystemen zum Laufen bringen. Das Tool besteht aus zwei wesentlichen Teilen:

  1. Training von neuronalen Netzen mittels Torch. Dieses Training wird idealerweise auf einer rechenstarken Maschine ausgeführt (z.B. Google Collab mit GPUs).

  2. Erkennung von Tabellen in Bild- oder PDF-Dokumenten auf Basis des zuvor trainierten neuronalen Netzes.

Setup

Um beide Programmbausteine lauffähig zu machen, müssen folgende Schritte ausgreführt werden:

Installation von Python und Paketen

Installation von Elasticsearch

  1. Elasticsearch hier herunterladen (bitte Version 7.17.1 verwenden, andernfalls müssen das Package elasticsearch 7.17.1 deinstalliert werden und entsprechende Package mit entsprechenen Version heruntergeladen werden).
  2. Archiv entpacken (z.B. nach D:\elasticsearch\)
  3. Navigation in den Ordner elasticsearch\bin
  4. elasticsearch.bat ausführen, um die Installation zu starten.
  5. localhost:9200 im Browser eingeben, um erfolgreiche Installation zu testen. → Folgender Text sollte im Browser lesbar sein: "You know you search."

Hinweis: Die Version des pip-Packages für Elasticsearch muss zur installierten Version auf dem System passen!

Installation von Tesseract (für Windows)

alle Sprachen

Programmablauf

Der Ablauf des Programmes kann anhand den Folgenden nachvollzogen werden:

verarbeitung einbild

stapelverarbeitung einbild

Ergebnisse

1

2

nach Strukturnormalize:

3