Nomalizierte Einschreibung in Elasticsearch

huichen5796 / 2022-studienarbeit-hui-chen

a tool for detecting tables in image and analysing complex header

3 stars 0 forks source link

Nomalizierte Einschreibung in Elasticsearch #56

Closed huichen5796 closed 2 years ago

huichen5796 commented 2 years ago

bei einfacher Tabelle ist die Normalize fertig:

huichen5796 commented 2 years ago

Bei komplexe Tabelle sind aber Probleme zu lösen:

die Erkennung des Inhalts von Headers mit Farbefüllung
die Zellen über Zeilen, sie bestehenaus manchmal zwei oder drei Zeilen.

huichen5796 commented 2 years ago

Die Texterkennung auf Bildern nach der Binarisierung und dem Entfernen von Lienen ist zu schlecht. Ich werde versuchen, sie in Gray-image zu erkennen. Erkennung von gray-image: besser aber noch nicht gut

huichen5796 commented 2 years ago

Erkannt nach 6-facher Vergrößerung der Zelle：

header ist besser erkannt aber Nummer schlechter

huichen5796 commented 2 years ago

use cv2.copyMakeBorder(cell_zone, 40, 40, 40, 40, cv2.BORDER_REPLICATE) zu Boundary Copy-Erweiterung, auf diese Weise der Inhalt der Zelle wird in Mitte liegt, nicht zu nah am Rand. Wenn es nur eine Nummer inr Zelle gibt ,kennt es nicht,

huichen5796 commented 2 years ago

sehrrrrrrrrr guuuuut, durch config='--psm 7' ist die Erkennung wunderbar, danke Holger