PaddlePaddle / PaddleOCR

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)
https://paddlepaddle.github.io/PaddleOCR/
Apache License 2.0
44.57k stars 7.85k forks source link

英文识别定位不准,英文单词之间没有空格 #290

Closed bikerr closed 4 years ago

bikerr commented 4 years ago

英文识别无空格 文字较多定位比较差

tink2123 commented 4 years ago

感谢使用,支持空格的模型还未更新在Repo里,发布后会同步给您。

D-DanielYang commented 4 years ago

image 忍不住先发重训之后最新的模型效果看下,应该近期就会更新出来。 可以参考readme中二维码加微信群,了解最新研发进展^_^

tink2123 commented 4 years ago

@bikerr 支持空格的模型已发布,上图是大模型的识别效果,欢迎试用. inference 模型 预训练模型

Aionrichman commented 4 years ago

请问这个有没有mobile net版本的inference模型啊

dyning commented 4 years ago

mobilenet的inference模型也有,请在中文OCR模型列表查找。

DuckJ commented 4 years ago

@dyning @tink2123 请问带空格模型finetune时候和原来的预训练模型训练时候的字典大小是不是一样的啊?即原来的预训练模型是不是字典中也有空格啊,只是训练集中没有标出来。finetune时候其实网络层的大小维度是不变的这样才可以顺利finetune,不然finetune的时候是不是数据量少了也不行

tink2123 commented 4 years ago

是的,支持空格的预训练模型,字典中是有空格的。网络结构改变也可以finntune,但是fc层参数无法加载,相当于从头学习。数据量少的话模型比较难达到一个很好的效果。

发自网易邮箱大师 在2020年08月28日 19:02,ZJ 写道:

@dyning@tink2123 请问带空格模型finetune时候和原来的预训练模型训练时候的字典大小是不是一样的啊?即原来的预训练模型是不是字典中也有空格啊,只是训练集中没有标出来。finetune时候其实网络层的大小维度是不变的这样才可以顺利finetune,不然finetune的时候是不是数据量少了也不行

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.

DuckJ commented 4 years ago

@tink2123 谢谢回复,多问一句,你们训练的这个模型finetune的数据量规模大概是多少啊?还有优化器的设置都是什么啊,我在120w数据上学习率减半finetune,loss震荡比较厉害,优化器都是adam

DuckJ commented 4 years ago

@tink2123 大佬,请问finetune的时候固定哪些层的参数了么,例如crnn模型。

tink2123 commented 4 years ago

@DuckJ 优化器和中文配置文件一致,120W数据finetune应该够了,由于我们没有修改字典大小,因此没有固定参数。你可以尝试固定FC之前的参数。

DuckJ commented 4 years ago

@tink2123 thanks

lucasjinreal commented 5 months ago

中英文混合的,英文君无空格。