LinXueyuanStdio / LaTeX_OCR_PRO

:art: 数学公式识别增强版:中英文手写印刷公式、支持初级符号推导(数据结构基于 LaTeX 抽象语法树)Math Formula OCR Pro, supports handwrite, Chinese-mixed formulas and simple symbol reasoning (based on LaTeX AST).
GNU General Public License v3.0
1.11k stars 235 forks source link

您好!请问大神应用识别时候的置信度如何求得? #64

Closed QianJianTech closed 2 years ago

QianJianTech commented 2 years ago

识别模型非常有效,对我的学习研究帮助很大,先向大神致敬 有两个问题: 1.识别结果只返回表达式和执行时间,请问如何求识别结果的置信度?(我观察到猜测结果集里一般会出现两个结果,输出时一般输出的是元组中的第一个元素,请问是如何评估此结果更优秀的呢) 2.观察到输出结果经常出现各种括号不配对的情况,尤其是后半部分的括号,请问是否是断言时出什么问题还是截断函数设计方面的考虑呢?

LinXueyuanStdio commented 2 years ago
  1. 解码的时候用的是beam search,解码的过程会按置信度排序,可以看相关的部分改一下
  2. 括号不匹配,一般是模型训练不到位。一般EM在20左右就有明显的括号匹配的输出了
QianJianTech commented 2 years ago

回复的如此及时,非常感谢! 我按照此思路去学习一下,观察一下结果集的分布情况 再次感谢您的回复