为啥离线预测结果跟在线预测结果不一样 - Githubissues

PaddlePaddle / PaddleOCR

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

https://paddlepaddle.github.io/PaddleOCR/

Apache License 2.0

43.9k stars 7.8k forks source link

为啥离线预测结果跟在线预测结果不一样 #261

Closed dal5758 closed 4 years ago

dal5758 commented 4 years ago

离线模型如下：检测模型：ch_det_r50_vd_db 识别模型：ch_rec_r34_vd_crnn

tink2123 commented 4 years ago

在线预测用的是8.6M小模型，您使用的离线模型是通用大模型，大模型准确率会高一些

dal5758 commented 4 years ago

在线预测用的是8.6M小模型，您使用的离线模型是通用大模型，大模型准确率会高一些

关键是我用的离线大模型效果还不如在线模型。离线小模型也用过，比在线模型效果差太远。

tink2123 commented 4 years ago

在线模型是用的哪个地址呢？

dal5758 commented 4 years ago

在线模型是用的哪个地址呢？

https://www.paddlepaddle.org.cn/hub/scene/ocr

tink2123 commented 4 years ago

这个地址和我们的模型应该是一致的，请问您离线的预测命令是？

dal5758 commented 4 years ago

python3 tools/infer/predict_system.py --image_dir="./doc/imgs/" --det_model_dir="./inference/ch_det_r50_vd_db/" --rec_model_dir="./inference/ch_rec_r34_vd_crnn/"

tink2123 commented 4 years ago

方便提供一张您的测试图片吗，我们自测一下

dal5758 commented 4 years ago

随便晚上搜了一张图片。 100

tink2123 commented 4 years ago

自测了一下，可能是因为图片模糊的原因，这张图在我们的模型上表现不佳。小模型和在线测试结果是近似的，大模型对识别正确的句子有更高的置信度。离线大模型预测结果：

离线小模型预测结果：

在线预测结果：

dal5758 commented 4 years ago

我的问题是：用的都是轻量级模型，为啥离线和在线结果不一样啊

tink2123 commented 4 years ago

用的都是轻量级模型，为啥离线和在线结果不一样啊

在线上传图片后会对图片有压缩，因此得分有小幅度变动，预测内容是一致的。另外在线版本使用的是较早的代码，PaddleOCR库持续更新中，对可视化结果做了一些优化，因此得分较低的检测结果不会显示出来。离线和在线的版本使用的模型参数是同一份，这个没有diff。

dal5758 commented 4 years ago

你们自研的模型啥时候放出来啊，8号到现在快2周了，你们没有KPI的吗：）

tink2123 commented 4 years ago

感谢关注，代码整理中，会尽快发布。