tesseract-ocr / tesseract

Tesseract Open Source OCR Engine (main repository)
https://tesseract-ocr.github.io/
Apache License 2.0
62.31k stars 9.52k forks source link

Entire lines of text missing. Different missing when psm = 3, 6, 11 #1339

Open zc813 opened 6 years ago

zc813 commented 6 years ago

Environment

Current Behavior:

Brief description:

  1. One or more entire lines are missing when recognizing Tibetan.
  2. Different lines are missing when psm = 3, 6, or 11.
  3. If the image is slightly rotated or cropped, the missing line might come back.
  4. When compiling from source after the latest commit #1264 yesterday, missing lines remain the same, while recognized lines are more complete.
  5. When using a specially trained model, the lines that are missing might differ.
  6. Similar issue: 6.1. #538 psm 3 and psm 6 skip different parts of text based on font size 6.2. #681 LSTM: Words dropped during recognition (tried the solution, does not fix this problem) 6.3. #1319 Page Layout Issues

Test image:

https://user-images.githubusercontent.com/15245190/36480676-2820ca12-1748-11e8-9964-7c45a86426a5.png

Recognized with tessdata_best/bod.traineddata. First 3 lines:

PSM==6 01 ༄༅། །ཕམ་གྱི་གསུང་ལྡེབ། ༢ མཁན་ཆེན་བསྟོད་པ་འཇམ་དཔལ་མ་མི་ཕམ་གྱི་གསུང་ལྡེབ། ༢ ཆོས་རྒྱུལ་ཆེན་པོའི་བསྟོད་པ་གངས་ཅན་མ་མི་ཕམ་གྱི་གསུང་ལྡེབ། ༢ ༈ 02 (2nd line missing) 03 (3rd line missing)

PSM==11 All lines are complete but some are shattered and more inaccurate.

PSM==3 01 ༄༅། །ཕམ་གྱི་གསུང་ལྡེབ།༢ མཁན་ཆེན་བསྟོད་པ་འཇམ་དཔལ་མ་མི་ལམ་གྱི་གསུང་ལྡེབ།༢ ཆོས་རྒྱུལ་ཆེན་པོའི་བསྟོད་པ་གངས་ཅན་མ་མི་ཕམ་གྱི་གསུང་ལྡེབ།༢ རྣ 02 (2nd line missing) 03 པར་བཞག་པ་ཚིགས་སུ་བཅད་པ་སློབ་དཔོན་པུངྱེ་ཤྲཱིའི་གསུང་ལྡེབ།༡ སློབ་དཔོན་ཆེན་པོ་རྡོ་རྗེ་གདན་པ་ཇོ་བོ་པུའངྱེ་ཤྲིས་མཛད་པའི་དགེ་བསྟེན་སྡོམ་པའི་རྣམ་པར་བཞག་པ་ཚིགས་སུ་

PSM==3, same image but slightly rotated and cropped https://user-images.githubusercontent.com/15245190/36482692-13cdb550-174f-11e8-9378-b8617342594c.png

01 ༄༅།། །ཕམ་གྱི་གསུང་ལྡེབ།༢ མཁན་ཆེན་བསྟོད་པ་འཇམ་དཔལ་མ་མི་ཕམ་གྱི་གསུང་ལྡེབ།༢ ཆོས་རྒྱུལ་ཆེན་པོའི་བསྟོད་པ་གངས་ཅན་མ་མི་ཕམ་གྱི་གསུང་ལྡེབ།༢ རྣ 02 གཉིས་པ་རྒྱུ་མཚན་ཉིད་ཀྱི་ཐེག་པར་ལམ་གྱི་གཞི་མ་སོ་ཐར་སྐོར་ལ། སོ་ཐར་སྡོམ་བརྒྱུད་གསོལ་འདེབས་ཀུན་མཁྱེན་ལྔ་པ་ཆེན་པོའི་གསུང་ལྡེབ།༣ དགེ་བསྟེན་གྱི་སྡོམ་པའི་རྣམ་ 03 པར་བཞག་པ་ཚིགས་སུ་བཅད་པ་སློབ་དཔོན་པུྱེ་ཤྲིའི་གསུང་ལྡེབ།༡ Another test image with its fourth line missing: https://user-images.githubusercontent.com/15245190/36481051-87d49898-1749-11e8-9fb0-cfa4334d2445.png

Do you have any idea? or any suggestion what I should do? Thanks a lot! @Shreeshrii @amitdo

amitdo commented 3 years ago

No, the layout analysis part is not trainable.