PaddlePaddle / PaddleClas

A treasure chest for visual classification and recognition powered by PaddlePaddle
Apache License 2.0
5.41k stars 1.16k forks source link

PULC微调text_image_orientation模型大量误识别0°为180°的问题 #3201

Closed ultramangod closed 1 week ago

ultramangod commented 1 month ago

问题详情

我在使用标准PPLCNet_x1_0.yaml训练text_image_orientation时,使用了预训练模型text_image_orientation_pretrained.pdparams

训练数据为官方公开数据集10365张图片+自己数据(包含文档,带图文档,表格,APP截图等)3500张图片。每张图片均先摆正+四向旋转构建样本rot_0到rot_270。后续也尝试过只使用自己数据,结果差异不大。

PPLCNet_x1_0.yaml参数修改项为分辨率相关,严格按照https://github.com/PaddlePaddle/PaddleClas/blob/develop/docs/zh_CN/training/single_label_classification/finetune.md#faq 的标准将分辨率修改为320。

训练后期best_model能够达到97%以上的精度,但是正式用于业务数据infer时,许多特征明确的0°文档都会被识别为180°。

较为鲜明的错误类型包括:

错识别为180°且置信度较高>0.7

  1. 右下存在落款的文档
  2. 标题鲜明+表格的文档
  3. 全页表格
  4. 上半页文档+下半页网格布局的多张截图
  5. 单纯网格布局的多张截图
  6. 2300 * 1700分辨率字很边缘很小的网页截图
  7. 微信聊天记录的手机截图

    错识别为180°且置信度较低,甚至top1和top2置信度接近。

  8. 右下存在印章,落款的文档
  9. 只有文档上部存在寥寥数行文本的下半空白文档
  10. 2300 * 1700分辨率的网页截图
  11. 只包含图片的文档页

问题如下:

**1. 如何增强数据解决上述问题?

  1. 业务场景中,有许多1700 2300分辨率的图像,压缩成320 320是否会影响对文字方向的判断?
  2. 如果进一步提高分辨率,影响识别效率的瓶颈是多少?
  3. 只有不含文字的图片的方向识别效果很差,那么文字较少的带图片文档是否应该作为脏数据踢出去?
  4. 还有没有其他优化策略?**

谢谢解答。

PaddleClas版本以及PaddlePaddle版本

cuicheng01 commented 1 month ago

主要还是验证集和测试集差异导致的,建议把符合业务数据分布的数据加进来训练呢

TingquanGao commented 1 month ago

The issue has no response for a long time and will be closed. You can reopen or new another issue if are still confused.


From Bot

TingquanGao commented 1 week ago

The issue has no response for a long time and will be closed. You can reopen or new another issue if are still confused.


From Bot