huichen5796 / 2022-studienarbeit-hui-chen

a tool for detecting tables in image and analysing complex header
3 stars 0 forks source link

bei Rekonstrukiton der Table #55

Closed huichen5796 closed 2 years ago

huichen5796 commented 2 years ago

Eine adaptive Zellbeziehungs-Beurteilungsmethode wurde hinzugefügt:

vorher:Zellen in derselben Spalte mit zu großem Längenunterschied werden fälschlicherweise als zwei Spalten gewertet. image

nun: Berücksichtigung der Zellausrichtung: linksbündig, rechtsbündig, zentriert ausgerichtet, Als Ankerpunkte werden der Center Punkte jeder Zelle verwendet. Der Abstand zwischen den beiden Ankerpunkten wird verwendet, um die Zellen-Spalten-Beziehung und die Zeilenbeziehung zu bestimmen. image

Urteilskriterien ---- parameter in function PositionCorrection()

huichen5796 commented 2 years ago

Long_size bei LSDGetLines()

am besten wäre average_cellsize[1], Aber da die Position von LSDGetLines() vorne ist, kann aberage_cellsize[1] nicht verwendet werden. Nachdem ich die Zellengröße in mehreren PDF-Dateien gezählt hatte, entschied ich mich, sie auf 20 zu setzen. Somit kann | entfernt werden. image

huichen5796 commented 2 years ago

https://groups.google.com/g/tesseract-ocr/c/Wdh_JJwnw94/m/24JHDYQbBQAJ

Tess v3.05 does better for the higher resolutions (40-140 pixel heights).

Die Zeichenhöhe im Originalbild beträgt etwa 10, also habe ich die Größe der Zelle vervierfacht.

vorher: image

nun: image

huichen5796 commented 2 years ago

image

Wenn das Originalbild nicht gekippt ist, ist der Erkennungseffekt schon sehr gut.

Es bleibt nur noch eine letzte Frage, wie man macht, um Zeile 10 korrekt unter Zeile 9 zu rangieren

lösung nun --> use 0,1,2,3,4,5,6,7,8,9,10 statt row0, row1, .... image

origenal: image