opendatalab / UniMERNet

UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition
https://huggingface.co/spaces/opendatalab/UniMERNet-Demo
Apache License 2.0
196 stars 18 forks source link

关于UniMERNet 在 HWE 测评集精度无法复现的问题 #16

Closed liuhongen1234567 closed 2 months ago

liuhongen1234567 commented 2 months ago

作者,您好,我近期根据论文和代码的配置在 UniMER-1M训练集对UniMERNet进行了复现,在SPE、CPE、 SCE三个测评集上精度都比较接近,但是在HWE测评集上精度会差很多。BLUE SCORE 才0.5197, 官方模型 0.921。将HWE 和 UniMER-1M训练集 放在一起混合训练,BLEU SCORE 0.89左右,也没有达到0.921的精度。想问一下是否是数据集的问题,我检查了标签文件,发现有106w个label,但是只有98w张图片,这种现象是不是数据集缺失相关手写公式图片造成的? image

wangbinDL commented 2 months ago
  1. BLEU Score到0.89是合理的,0.921实际上是使用了预训练的模型,可以尝试下texify的预训练模型。
  2. 这周我们会开源训练代码,论文里也会更新对预训练部分的描述。
liuhongen1234567 commented 2 months ago

好的,感谢