样本生成工具能否公开

senlinuc / caffe_ocr

主流ocr算法研究实验性的项目，目前实现了CNN+BLSTM+CTC架构

1.26k stars 535 forks source link

Open blacklee5 opened 6 years ago

blacklee5 commented 6 years ago

训练样本生成工具能否尽快公开 @senlinuc

loveltyoic commented 6 years ago

同求

ARQlalala commented 6 years ago

同求

weiweili123 commented 6 years ago

Sanster commented 6 years ago

ARQlalala commented 6 years ago

万分感谢，谢谢您！

在 2018-05-29 19:15:44，"Qing" notifications@github.com 写道：

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or mute the thread.

liangshuang1993 commented 6 years ago

@Sanster 你好，请问下你训练的模型在实际图片上面效果怎么样？我用你给的工具生成了100万张图片，每张图片中包含有英文，数字，中文，符号。训练集验证集准确率都有0.97，但是实际图片测试效果不太好。想请问下你有没有遇到这种问题。谢谢！

Sanster commented 6 years ago

@liangshuang1993 在我的应用场景下还可以。你的测试图片是什么样的？效果不好可能有很多原因，比如字体不够丰富、背景图片太单一（模型范化效果差）、语料不足、训练集数量不够等等。可以用这个项目作者提供的训练集试试

liangshuang1993 commented 6 years ago

@Sanster 我把测试图片整理了下，清晰点的图片准确率确实能达到0.95,模糊的准确率是0.75左右。看来要多生成些模糊的图片做训练集了。非常感谢！

另外想请教下，如果没有语料，或者说语料都是字典里面的字的随机组合，会不会比有好的语料效果差？

Sanster commented 6 years ago

@liangshuang1993 这个没有具体测试过，一个经验是语料的比随机组合好炼，收敛快。有什么好的经验可以分享吗 :smile:

liangshuang1993 commented 6 years ago

@Sanster 你好，我没有具体比较，用了下随机组合的做训练集，感觉效果也还可以 😊