PaddlePaddle / PaddleHub

Awesome pre-trained models toolkit based on PaddlePaddle. (400+ models including Image, Text, Audio, Video and Cross-Modal with Easy Inference & Serving)【安全加固,暂停交互,请耐心等待】
https://www.paddlepaddle.org.cn/hub
Apache License 2.0
12.72k stars 2.08k forks source link

OCR chinese_ocr_db_crnn_mobile Bug #1495

Open UDshadow opened 3 years ago

UDshadow commented 3 years ago

欢迎您反馈PaddleHub使用问题,非常感谢您对PaddleHub的贡献! 在留下您的问题时,辛苦您同步提供如下信息:

nepeplwu commented 3 years ago

@UDshadow ,是否方便将识别错误的原始图片发给我们呢?

D-DanielYang commented 3 years ago

欢迎您反馈PaddleHub使用问题,非常感谢您对PaddleHub的贡献! 在留下您的问题时,辛苦您同步提供如下信息:

  • 版本、环境信息 1)PaddleHub2.1 2)Windows,python3.7.3 3)Module: chinese_ocr_db_crnn_mobile, chinese_ocr_db_crnn_server
  1. Module parameters: results = ocr.recognize_text( images=np_images, # 图片数据,ndarray.shape 为 [H, W, C],BGR格式; use_gpu=False, # 是否使用 GPU;若使用GPU,请先设置CUDA_VISIBLE_DEVICES环境变量 output_dir='ocr_result', # 图片的保存路径,默认设为 ocr_result; visualization=False, # 是否将识别结果保存为图片文件; box_thresh=0.5, # 检测文本框置信度的阈值; text_thresh=0.5) # 识别中文文本置信度的阈值;
  • 复现信息:直接使用上述预训练模型识别中文文本时, 经常将“” 识别为 “”。

这个可能是因为模型训练的时候见到数据中购的词频远高于贮,建议(1)MLP后处理,(2)使用PaddleOCR项目在自己的数据集下重新训一下

UDshadow commented 3 years ago

谢谢Daniel的建议,出问题的例子如下。因为文件保密的原因,只截取一小部分供参考。 [cid:c44d7814-732f-4a68-bbe0-0cba3c7f343a]


From: wuzewu @.> Sent: Monday, June 28, 2021 4:28 PM To: PaddlePaddle/PaddleHub @.> Cc: Ray @.>; Mention @.> Subject: Re: [PaddlePaddle/PaddleHub] OCR chinese_ocr_db_crnn_mobile Bug (#1495)

@UDshadowhttps://github.com/UDshadow ,是否方便将识别错误的原始图片发给我们呢?

― You are receiving this because you were mentioned. Reply to this email directly, view it on GitHubhttps://github.com/PaddlePaddle/PaddleHub/issues/1495#issuecomment-869483936, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AJQBJGLMX7R4YIGY73QQMATTVAXELANCNFSM47HFA43Q.