ultramangod commented 1 month ago

问题详情

我在使用标准PPLCNet_x1_0.yaml训练text_image_orientation时，使用了预训练模型text_image_orientation_pretrained.pdparams

训练数据为官方公开数据集10365张图片+自己数据（包含文档，带图文档，表格，APP截图等）3500张图片。每张图片均先摆正+四向旋转构建样本rot_0到rot_270。后续也尝试过只使用自己数据，结果差异不大。

PPLCNet_x1_0.yaml参数修改项为分辨率相关，严格按照https://github.com/PaddlePaddle/PaddleClas/blob/develop/docs/zh_CN/training/single_label_classification/finetune.md#faq 的标准将分辨率修改为320。

训练后期best_model能够达到97%以上的精度，但是正式用于业务数据infer时，许多特征明确的0°文档都会被识别为180°。

较为鲜明的错误类型包括：

错识别为180°且置信度较高>0.7

右下存在落款的文档
标题鲜明+表格的文档
全页表格
上半页文档+下半页网格布局的多张截图
单纯网格布局的多张截图
2300 * 1700分辨率字很边缘很小的网页截图
微信聊天记录的手机截图
错识别为180°且置信度较低，甚至top1和top2置信度接近。
右下存在印章，落款的文档
只有文档上部存在寥寥数行文本的下半空白文档
2300 * 1700分辨率的网页截图
只包含图片的文档页

问题如下：

**1. 如何增强数据解决上述问题？

业务场景中，有许多1700 2300分辨率的图像，压缩成320 320是否会影响对文字方向的判断？
如果进一步提高分辨率，影响识别效率的瓶颈是多少？
只有不含文字的图片的方向识别效果很差，那么文字较少的带图片文档是否应该作为脏数据踢出去？
还有没有其他优化策略？**

谢谢解答。

PaddleClas版本以及PaddlePaddle版本

paddlepadlle-gpu=2.6.0.post120
paddleclas=2.6.0
训练环境信息：

a. 具体操作系统，ubuntu b. Python版本号，3.9.18 c. CUDA/cuDNN版本， CUDA12.2/CUDNN8.9.6

cuicheng01 commented 1 month ago

主要还是验证集和测试集差异导致的，建议把符合业务数据分布的数据加进来训练呢

TingquanGao commented 1 month ago

The issue has no response for a long time and will be closed. You can reopen or new another issue if are still confused.

From Bot

TingquanGao commented 1 week ago

The issue has no response for a long time and will be closed. You can reopen or new another issue if are still confused.

From Bot

PaddlePaddle / PaddleClas

PULC微调text_image_orientation模型大量误识别0°为180°的问题 #3201

问题详情

较为鲜明的错误类型包括：

错识别为180°且置信度较高>0.7

错识别为180°且置信度较低，甚至top1和top2置信度接近。

问题如下：

PaddleClas版本以及PaddlePaddle版本

训练环境信息：