qwedc001 / tesseractOCR_umi_plugin

tesseractOCR 在umi-ocr上的支持插件
MIT License
8 stars 3 forks source link

数学模型的识别率过低 #8

Closed qwedc001 closed 9 months ago

qwedc001 commented 10 months ago

感觉更像是Tesseract模型本身的问题。

我采用了Tesseract Best模型,其数学模块为2.2兆,整体和Tesseract Fast没有区别(我怀疑他们是相同的数据集)

当equ作为主要识别(如equ+eng)其输出结果多为错误的符号。并且置信率相对来说比较低。 image

当equ作为次要识别(如eng+equ)时,识别内容准确度提升,但是对于公式的辨识能力大幅下降至趋近于没有。 image

我测试的内容相对来说比较窄,可能需要进一步测试。

qwedc001 commented 9 months ago

并非插件自身问题,tesseract引擎问题个人无法修复。 won't fix.