Closed huichen5796 closed 2 years ago
Long_size bei LSDGetLines()
am besten wäre average_cellsize[1], Aber da die Position von LSDGetLines() vorne ist, kann aberage_cellsize[1] nicht verwendet werden. Nachdem ich die Zellengröße in mehreren PDF-Dateien gezählt hatte, entschied ich mich, sie auf 20 zu setzen. Somit kann | entfernt werden.
https://groups.google.com/g/tesseract-ocr/c/Wdh_JJwnw94/m/24JHDYQbBQAJ
Tess v3.05 does better for the higher resolutions (40-140 pixel heights).
Die Zeichenhöhe im Originalbild beträgt etwa 10, also habe ich die Größe der Zelle vervierfacht.
vorher:
nun:
Wenn das Originalbild nicht gekippt ist, ist der Erkennungseffekt schon sehr gut.
Es bleibt nur noch eine letzte Frage, wie man macht, um Zeile 10 korrekt unter Zeile 9 zu rangieren
lösung nun --> use 0,1,2,3,4,5,6,7,8,9,10 statt row0, row1, ....
origenal:
Eine adaptive Zellbeziehungs-Beurteilungsmethode wurde hinzugefügt:
vorher:Zellen in derselben Spalte mit zu großem Längenunterschied werden fälschlicherweise als zwei Spalten gewertet.
nun: Berücksichtigung der Zellausrichtung: linksbündig, rechtsbündig, zentriert ausgerichtet, Als Ankerpunkte werden der Center Punkte jeder Zelle verwendet. Der Abstand zwischen den beiden Ankerpunkten wird verwendet, um die Zellen-Spalten-Beziehung und die Zeilenbeziehung zu bestimmen.
Urteilskriterien ---- parameter in function PositionCorrection()