Closed LUXUS1 closed 11 months ago
如果你说的过拟合:随便一个非公章图像,就能识别出公章内容? 字符识别阶段的过拟合是一个经典的问题,不止troc有。只能说我大概总结的原因是字符识别阶段通常很少训练负样本,用trocr训练公章也是类似,导致在预测推理时,给一个类似的纹理图像都可能识别出内容。 1.增加置信度过滤,经测试设置个阈值基本可以过滤掉。 2.印章检测阶段提高精度,检测任务相对简单很多,如果送到后续识别的都是公章,自然就减少了误识别。 3.增加负样本 4.修改识别网络
如果你说的是一个新的印章图像,结果测试推理时无法正确识别其中的内容,识别成训练集中的一些内容?这个的话我还没遇到
数据集的话,内部使用的模型训练集在10w+。
如果你说的过拟合:随便一个非公章图像,就能识别出公章内容? 字符识别阶段的过拟合是一个经典的问题,不止troc有。只能说我大概总结的原因是字符识别阶段通常很少训练负样本,用trocr训练公章也是类似,导致在预测推理时,给一个类似的纹理图像都可能识别出内容。 1.增加置信度过滤,经测试设置个阈值基本可以过滤掉。 2.印章检测阶段提高精度,检测任务相对简单很多,如果送到后续识别的都是公章,自然就减少了误识别。 3.增加负样本 4.修改识别网络
如果你说的是一个新的印章图像,结果测试推理时无法正确识别其中的内容,识别成训练集中的一些内容?这个的话我还没遇到
数据集的话,内部使用的模型训练集在10w+。
老师,负样本指的是构建一些模糊的看不见字的印章,然后标签放空么?现在有个问题就是无论识别正确与否,置信度都很高。都是99%。。
目前我这边还没遇到置信度都很高的情况,每个字都有置信度的,识别错的字精度也很高吗?
负样本的话,如果担心调整后训练时间问题,可以先抽样一个小规模数据集试试。
非常感谢大佬,目前生成公章使用的就是这个网站,ICDAR的数据集也有使用。但我在训练的过程中发现TrOCR很容易过拟合,不知道您这边的是怎么解决的?此外,还想问一下您的训练数据量大约有多少?
Originally posted by @LUXUS1 in https://github.com/Gmgge/TrOCR-Seal-Recognition/issues/3#issuecomment-1752289589