qcf-568 / DocTamper

[CVPR2023] Towards Robust Tampered Text Detection in Document Image: New Dataset and New Solution
127 stars 11 forks source link

关于BAG问题 #61

Closed boreas-l closed 4 months ago

boreas-l commented 4 months ago

大佬,我在issue#53中有看到你提到图像resize处理的影响。

现在我是在做关于证件的篡改检测。在各个开源算法的预处理权重模型推理中,你这个模型是效果较好的。但是目前存在情况如下:1、上游调用方会将大图进行resize处理;2、另一方面,在现有推理流程中,由于证件的背景较于复杂以及证件主体本身可能会较小,会先进行证件定位再提取resize的处理。在已知这两种处理的情况下,如果我用一批已经定位提取矫正过的证件数据进行伪造处理来作为数据集训练你这个模型的话,效果是不是会较差?

感谢大佬了,多谢!

qcf-568 commented 4 months ago

你好,证件的这种情况比较特殊,因为它有复杂的底纹而不像文档场景那种背景都差不多,因此证件篡改容易产生底纹不连续导致的视觉痕迹,这种情况下用mmsegmentation训练纯视觉convnext分割模型都能得到较好的效果,还能抗resize,没必要用频域方法。这个论文的模型的重点优势在于对于背景单调的文档场景,篡改产生的视觉痕迹很少或没有,能取得比纯视觉模型好得多的检出效果和跨场景泛化性,这套方法在单调背景的文档场景下才是必须的。

对于第1点,如果必须大图resize那肯定会受影响,可以考虑使用纯视觉模型。但如果可以接受裁切身份证区域来减小尺寸但是不resize,那么这个方案仍然能work,并且需要使用这个模型的T-SROIE那套训练推理的pipeline来弄(我不知道你有没有)。 对于第2点,尽管频域方法会受到resize影响,但这里主要针对篡改后的resize。篡改前裁切resize再压缩,作为素材再篡改得到训练样本是对训练没有影响的。

总结:证照因为有底纹而适合纯视觉模型做。推理resize会有影响,训练样本的源素材resize没有影响。