huichen5796 / 2022-studienarbeit-hui-chen

a tool for detecting tables in image and analysing complex header
3 stars 0 forks source link

Nomalizierte Einschreibung in Elasticsearch #56

Closed huichen5796 closed 2 years ago

huichen5796 commented 2 years ago

bei einfacher Tabelle ist die Normalize fertig: image image image image

huichen5796 commented 2 years ago

Bei komplexe Tabelle sind aber Probleme zu lösen:

  1. die Erkennung des Inhalts von Headers mit Farbefüllung
  2. die Zellen über Zeilen, sie bestehenaus manchmal zwei oder drei Zeilen. image
huichen5796 commented 2 years ago

Die Texterkennung auf Bildern nach der Binarisierung und dem Entfernen von Lienen ist zu schlecht. Ich werde versuchen, sie in Gray-image zu erkennen. image image Erkennung von gray-image: image image besser aber noch nicht gut

huichen5796 commented 2 years ago

Erkannt nach 6-facher Vergrößerung der Zelle:

image

header ist besser erkannt aber Nummer schlechter

huichen5796 commented 2 years ago

use cv2.copyMakeBorder(cell_zone, 40, 40, 40, 40, cv2.BORDER_REPLICATE) zu Boundary Copy-Erweiterung, auf diese Weise der Inhalt der Zelle wird in Mitte liegt, nicht zu nah am Rand. image Wenn es nur eine Nummer inr Zelle gibt ,kennt es nicht,

huichen5796 commented 2 years ago

sehrrrrrrrrr guuuuut, durch config='--psm 7' ist die Erkennung wunderbar, danke Holger image