英文识别定位不准，英文单词之间没有空格

PaddlePaddle / PaddleOCR

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

https://paddlepaddle.github.io/PaddleOCR/

Apache License 2.0

44.57k stars 7.85k forks source link

英文识别定位不准，英文单词之间没有空格 #290

Closed bikerr closed 4 years ago

bikerr commented 4 years ago

英文识别无空格文字较多定位比较差

tink2123 commented 4 years ago

感谢使用，支持空格的模型还未更新在Repo里，发布后会同步给您。

D-DanielYang commented 4 years ago

忍不住先发重训之后最新的模型效果看下，应该近期就会更新出来。可以参考readme中二维码加微信群，了解最新研发进展^_^

tink2123 commented 4 years ago

@bikerr 支持空格的模型已发布，上图是大模型的识别效果，欢迎试用. inference 模型预训练模型

Aionrichman commented 4 years ago

请问这个有没有mobile net版本的inference模型啊

dyning commented 4 years ago

mobilenet的inference模型也有，请在中文OCR模型列表查找。

DuckJ commented 4 years ago

@dyning @tink2123 请问带空格模型finetune时候和原来的预训练模型训练时候的字典大小是不是一样的啊？即原来的预训练模型是不是字典中也有空格啊，只是训练集中没有标出来。finetune时候其实网络层的大小维度是不变的这样才可以顺利finetune，不然finetune的时候是不是数据量少了也不行

tink2123 commented 4 years ago

是的，支持空格的预训练模型，字典中是有空格的。网络结构改变也可以finntune，但是fc层参数无法加载，相当于从头学习。数据量少的话模型比较难达到一个很好的效果。

发自网易邮箱大师在2020年08月28日 19:02，ZJ 写道：

@dyning@tink2123 请问带空格模型finetune时候和原来的预训练模型训练时候的字典大小是不是一样的啊？即原来的预训练模型是不是字典中也有空格啊，只是训练集中没有标出来。finetune时候其实网络层的大小维度是不变的这样才可以顺利finetune，不然finetune的时候是不是数据量少了也不行

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.

DuckJ commented 4 years ago

@tink2123 谢谢回复，多问一句，你们训练的这个模型finetune的数据量规模大概是多少啊？还有优化器的设置都是什么啊，我在120w数据上学习率减半finetune，loss震荡比较厉害，优化器都是adam

DuckJ commented 4 years ago

@tink2123 大佬，请问finetune的时候固定哪些层的参数了么，例如crnn模型。

tink2123 commented 4 years ago

@DuckJ 优化器和中文配置文件一致，120W数据finetune应该够了，由于我们没有修改字典大小，因此没有固定参数。你可以尝试固定FC之前的参数。

DuckJ commented 4 years ago

@tink2123 thanks

lucasjinreal commented 5 months ago

中英文混合的，英文君无空格。