PaddlePaddle / PaddleOCR

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)
https://paddlepaddle.github.io/PaddleOCR/
Apache License 2.0
43.9k stars 7.8k forks source link

为啥离线预测结果跟在线预测结果不一样 #261

Closed dal5758 closed 4 years ago

dal5758 commented 4 years ago

离线模型如下: 检测模型:ch_det_r50_vd_db 识别模型:ch_rec_r34_vd_crnn

tink2123 commented 4 years ago

在线预测用的是8.6M小模型,您使用的离线模型是通用大模型,大模型准确率会高一些

dal5758 commented 4 years ago

在线预测用的是8.6M小模型,您使用的离线模型是通用大模型,大模型准确率会高一些

关键是我用的离线大模型效果还不如在线模型。 离线小模型也用过,比在线模型效果差太远。

tink2123 commented 4 years ago

在线模型是用的哪个地址呢?

dal5758 commented 4 years ago

在线模型是用的哪个地址呢?

https://www.paddlepaddle.org.cn/hub/scene/ocr

tink2123 commented 4 years ago

这个地址和我们的模型应该是一致的,请问您离线的预测命令是?

dal5758 commented 4 years ago

python3 tools/infer/predict_system.py --image_dir="./doc/imgs/" --det_model_dir="./inference/ch_det_r50_vd_db/" --rec_model_dir="./inference/ch_rec_r34_vd_crnn/"

tink2123 commented 4 years ago

方便提供一张您的测试图片吗,我们自测一下

dal5758 commented 4 years ago

随便晚上搜了一张图片。 100

tink2123 commented 4 years ago

自测了一下,可能是因为图片模糊的原因,这张图在我们的模型上表现不佳。 小模型和在线测试结果是近似的,大模型对识别正确的句子有更高的置信度。 离线大模型预测结果:

图片

离线小模型预测结果:

图片

在线预测结果: 图片

dal5758 commented 4 years ago

我的问题是:用的都是轻量级模型,为啥离线和在线结果不一样啊

tink2123 commented 4 years ago

用的都是轻量级模型,为啥离线和在线结果不一样啊

在线上传图片后会对图片有压缩,因此得分有小幅度变动,预测内容是一致的。另外在线版本使用的是较早的代码,PaddleOCR库持续更新中,对可视化结果做了一些优化,因此得分较低的检测结果不会显示出来。 离线和在线的版本使用的模型参数是同一份,这个没有diff。

dal5758 commented 4 years ago

你们自研的模型啥时候放出来啊,8号到现在快2周了,你们没有KPI的吗:)

tink2123 commented 4 years ago

感谢关注,代码整理中,会尽快发布。