Gmgge / TrOCR-Seal-Recognition

基于transformer的ocr识别,在公章(印章识别, seal recognition)拓展应用
121 stars 24 forks source link

训练数据量 #5

Closed LUXUS1 closed 11 months ago

LUXUS1 commented 11 months ago
          > 很感谢你的想法,关于合成公章我这边生成很多,目前缺少的是真实公章。

还是很感谢你的分享,不知道你这边是否收集了这个ICDAR 2023 Competition on Reading the Seal Title比赛的数据集。

至于生成公章,不知道你是否尝试过这个网站

非常感谢大佬,目前生成公章使用的就是这个网站,ICDAR的数据集也有使用。但我在训练的过程中发现TrOCR很容易过拟合,不知道您这边的是怎么解决的?此外,还想问一下您的训练数据量大约有多少?

Originally posted by @LUXUS1 in https://github.com/Gmgge/TrOCR-Seal-Recognition/issues/3#issuecomment-1752289589

Gmgge commented 11 months ago

如果你说的过拟合:随便一个非公章图像,就能识别出公章内容? 字符识别阶段的过拟合是一个经典的问题,不止troc有。只能说我大概总结的原因是字符识别阶段通常很少训练负样本,用trocr训练公章也是类似,导致在预测推理时,给一个类似的纹理图像都可能识别出内容。 1.增加置信度过滤,经测试设置个阈值基本可以过滤掉。 2.印章检测阶段提高精度,检测任务相对简单很多,如果送到后续识别的都是公章,自然就减少了误识别。 3.增加负样本 4.修改识别网络

如果你说的是一个新的印章图像,结果测试推理时无法正确识别其中的内容,识别成训练集中的一些内容?这个的话我还没遇到

数据集的话,内部使用的模型训练集在10w+。

dc6273632 commented 2 months ago

如果你说的过拟合:随便一个非公章图像,就能识别出公章内容? 字符识别阶段的过拟合是一个经典的问题,不止troc有。只能说我大概总结的原因是字符识别阶段通常很少训练负样本,用trocr训练公章也是类似,导致在预测推理时,给一个类似的纹理图像都可能识别出内容。 1.增加置信度过滤,经测试设置个阈值基本可以过滤掉。 2.印章检测阶段提高精度,检测任务相对简单很多,如果送到后续识别的都是公章,自然就减少了误识别。 3.增加负样本 4.修改识别网络

如果你说的是一个新的印章图像,结果测试推理时无法正确识别其中的内容,识别成训练集中的一些内容?这个的话我还没遇到

数据集的话,内部使用的模型训练集在10w+。

老师,负样本指的是构建一些模糊的看不见字的印章,然后标签放空么?现在有个问题就是无论识别正确与否,置信度都很高。都是99%。。

Gmgge commented 2 months ago

目前我这边还没遇到置信度都很高的情况,每个字都有置信度的,识别错的字精度也很高吗?

负样本的话,如果担心调整后训练时间问题,可以先抽样一个小规模数据集试试。