Gmgge / TrOCR-Seal-Recognition

基于transformer的ocr识别,在公章(印章识别, seal recognition)拓展应用
121 stars 24 forks source link

能否提供下印章识别训练的tricks呢?训练的准确率一直很低。感谢! #37

Open Inadequate233 opened 2 months ago

Gmgge commented 2 months ago

一般来说根据数据集的数量,并发数目调整下学习率就可以了,你的准确率很低,可以发下训练日志文件吗? 或者判断下: 1.训练loss在下降,验证精度在提示,但是变化缓慢,那么就可以适当提高学习率 2.已经收敛,但是精度仍然很低,检查下数据集的标注是否正确

Gmgge commented 2 months ago

我修复了一些参数要手动调整的问题,你可以拉取一下再训练试试。

期待你的反馈。

Inadequate233 commented 2 months ago

我在训练之前添加了一些数据增强的方式,发现第一个epoch的准确率为70%+,后面训练越来越低。明显模型过拟合。感觉还是数据量不够导致的。 另外,基于预训练模型训练的时候更换字符字典会不会导致微调的数据需要更多呢?

Gmgge commented 2 months ago

在图像相关任务中,字符识别类型的训练通常需要较多的数据,如果数据实在不够,可以搜索下相关的印章生成脚本,一些参考资料可以参考rapidocr收集的链接

dc6273632 commented 2 months ago

在图像相关任务中,字符识别类型的训练通常需要较多的数据,如果数据实在不够,可以搜索下相关的印章生成脚本,一些参考资料可以参考rapidocr收集的链接

理论上来说,如果loss一直下降,最后几乎是0了,但是精度实际是上升的,这个也不算是过拟合吧?

Gmgge commented 2 months ago

确保你的验证集没在训练集中,该验证集精度处于上升阶段,不能判断是过拟合。