训练数据量 - Githubissues

LUXUS1 commented 11 months ago

          > 很感谢你的想法，关于合成公章我这边生成很多，目前缺少的是真实公章。

还是很感谢你的分享，不知道你这边是否收集了这个ICDAR 2023 Competition on Reading the Seal Title比赛的数据集。

至于生成公章，不知道你是否尝试过这个网站

非常感谢大佬，目前生成公章使用的就是这个网站，ICDAR的数据集也有使用。但我在训练的过程中发现TrOCR很容易过拟合，不知道您这边的是怎么解决的？此外，还想问一下您的训练数据量大约有多少？

Originally posted by @LUXUS1 in https://github.com/Gmgge/TrOCR-Seal-Recognition/issues/3#issuecomment-1752289589

Gmgge commented 11 months ago

如果你说的过拟合：随便一个非公章图像，就能识别出公章内容？字符识别阶段的过拟合是一个经典的问题，不止troc有。只能说我大概总结的原因是字符识别阶段通常很少训练负样本，用trocr训练公章也是类似，导致在预测推理时，给一个类似的纹理图像都可能识别出内容。 1.增加置信度过滤，经测试设置个阈值基本可以过滤掉。 2.印章检测阶段提高精度，检测任务相对简单很多，如果送到后续识别的都是公章，自然就减少了误识别。 3.增加负样本 4.修改识别网络

如果你说的是一个新的印章图像，结果测试推理时无法正确识别其中的内容，识别成训练集中的一些内容？这个的话我还没遇到

数据集的话，内部使用的模型训练集在10w+。

dc6273632 commented 2 months ago

如果你说的过拟合：随便一个非公章图像，就能识别出公章内容？字符识别阶段的过拟合是一个经典的问题，不止troc有。只能说我大概总结的原因是字符识别阶段通常很少训练负样本，用trocr训练公章也是类似，导致在预测推理时，给一个类似的纹理图像都可能识别出内容。 1.增加置信度过滤，经测试设置个阈值基本可以过滤掉。 2.印章检测阶段提高精度，检测任务相对简单很多，如果送到后续识别的都是公章，自然就减少了误识别。 3.增加负样本 4.修改识别网络

如果你说的是一个新的印章图像，结果测试推理时无法正确识别其中的内容，识别成训练集中的一些内容？这个的话我还没遇到

数据集的话，内部使用的模型训练集在10w+。

老师，负样本指的是构建一些模糊的看不见字的印章，然后标签放空么？现在有个问题就是无论识别正确与否，置信度都很高。都是99%。。

Gmgge commented 2 months ago

目前我这边还没遇到置信度都很高的情况，每个字都有置信度的，识别错的字精度也很高吗？

负样本的话，如果担心调整后训练时间问题，可以先抽样一个小规模数据集试试。

Gmgge / TrOCR-Seal-Recognition

训练数据量 #5