Junjue-Wang / Rank1-Ali-Tianchi-Real-World-Image-Forgery-Localization-Challenge

2022阿里天池真实场景篡改图像检测挑战赛-冠军方案(1/1149)
171 stars 29 forks source link
computer-vision deep-learning security tampering

真实场景篡改图像检测挑战赛冠军方案(1/1149)

“审稿人手下留情”队

竞赛官网:https://tianchi.aliyun.com/competition/entrance/531945/tab/292

1. 篡改任务挑战解读

1.1 正负样本不均衡,模型优化困难

篡改问题,主要为二分语义分割问题,篡改任务主要是找出,擦除、替换、粘贴等篡改区域。通过分析已提供 4k 训练集,发现篡改区域(正)与非篡改区域(负)样本分布极度不均衡,存在长尾效应,如图 1 所示。因此需要克服样本不均衡问题,以修正模型优化方向

image-20220328202022683

图 1. 训练集篡改区域占图片比例分布

1.2 正负样本视觉差异小,判别特征微弱

训练集中存在大量,粘贴与擦除样本,造成正负样本特征差异小。如图 2,粘贴区域字体(正)与其他字体(负)视觉差别较小;擦除区域(正)与其他无文字区域(负)视觉差别较小。并且擦除替换类篡改区域面积较小,导致正样本自身缺少丰富语义特征。因此需要克服正负样本视觉差异小,判别特征微弱问题,以修提升模型识别能力

image-20220328202249594

图 2. 左图为粘贴篡改,右图为擦除篡改

1.3 训练集数据量小,泛化性弱

由于训练集只有 40k 监督样本,难以满足深度学习模型数据驱动训练模式,存在data-hungry 问题,具有过拟合的风险,泛化性受到影响。因此需要增加训练集样本数量,从数据方面增加样本多样性,提升深度模型泛化性能。

2. 解决方案

基于篡改任务中存在的三个挑战,我们设计以下思路:

3. 实验细节

3.1 数据增强

首先对数据进行保持宽高比的多尺度放大,范围为 1.0-3.0,其次经过一系列的随机裁剪(先 768 后 1024)、随机水平翻转、随机垂直翻转、随机旋转 90°、颜色抖动、HSV 变换等操作。

3.2 模型选择

采用多种类型模型(CNN+Transformer)相融合的方式,提升不同表征形式对于不同特征的互补性。CNN 部分编码器采用目前 SOTA 的 ConvNeXt[3]模型,解码器采用金字塔结构UPerNet[4];Transformer部分编码器采用目前SOTA的Swin-Transformer[5]模型,解码器采用 UPerNet。同时为了增加解码器差异性,还额外增加了 SegFormer[6]模型。三模型结果融合,获取高置信度伪标签,多轮迭代优化,提升模型的识别性能。

3.3 具体训练流程

模型 阶段 预训练 数据 尺寸 批次 步数 输出伪标签
ConvNeXt-Base 1 ImageNet 初始训练集 512×512 16 40k
2 阶段1 初始训练集 512×512 16 40k
3 阶段2 初始+Sea3 768×768 16 40k
4 阶段3 初始+Sea3 1024×1024 16 30k
5 阶段4 初始+Sea3 1024×1024 16 30k
6 阶段5 初始+Sea3+Ext 1024×1024 16 20k Pse1
7 阶段6 初始+Sea3+Ext+Pse1 1024×1024 16 20k Pse2
Swin-Base 1 ImageNet 初始训练集 512×512 16 40k
2 阶段1 初始训练集 512×512 16 40k
3 阶段2 初始+Sea3 768×768 16 40k
4 阶段3 初始+Sea3 1024×1024 16 30k
5 阶段4 初始+Sea3 1024×1024 16 30k Pse1
6 阶段5 初始+Sea3+Ext+Pse1 1024×1024 16 20k
7 阶段6 初始+Sea3+Ext+Pse1 1024×1024 16 20k Pse2
8 阶段7 初始+Sea3+Ext+Pse2 1024×1024 16 20k
SegFormer-B4 1 ImageNet 初始+Sea3 768×768 16 60k
2 阶段1 初始+Sea3 1024×1024 16 40k
3 阶段2 初始+Sea3+Ext+Pse1 1024×1024 16 30k

注:伪标签Pse1与Pse2为Swin与ConvNeXt融合结果

最终将三个模型的输出结果进行概率融合,得到最优精度。

4. 致谢

感谢主办方举办此次比赛,篡改任务具有特色挑战,启发研究与思考,并且需求紧贴实际应用。阿里天池给参与者提供了锻炼的平台,悉心解答大家的疑惑,让我们获取了大量宝贵的经验。希望将来也能够有机会继续参与此类竞赛,通过以赛代练,将研究成果面向应用转化。

此致,敬礼

"审稿人手下留情"团队

2022.03.25

5. 参考文献

  1. Berman M, Triki AR, Blaschko MB. The Lov\’asz-Softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks. ArXiv170508790 Cs. 2018; Available from: http://arxiv.org/abs/1705.08790

  2. He K, Gkioxari G, Dollár P, Girshick R. Mask R-CNN. ArXiv170306870 Cs. 2018; Available from: http://arxiv.org/abs/1703.06870

  3. Liu Z, Mao H, Wu C-Y, Feichtenhofer C, Darrell T, Xie S. A ConvNet for the 2020s. ArXiv220103545 Cs. 2022; Available from: http://arxiv.org/abs/2201.03545

  4. Xiao T, Liu Y, Zhou B, Jiang Y, Sun J. Unified Perceptual Parsing for Scene Understanding. ArXiv180710221 Cs. 2018; Available from: http://arxiv.org/abs/1807.10221

  5. Liu Z, Lin Y, Cao Y, Hu H, Wei Y, Zhang Z, et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. ArXiv210314030 Cs. 2021; Available from: http://arxiv.org/abs/2103.14030

  6. Xie E, Wang W, Yu Z, Anandkumar A, Alvarez JM, Luo P. SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers. ArXiv210515203 Cs. 2021; Available from: http://arxiv.org/abs/2105.15203