chineseocr / darknet-ocr

darknet text detect and darknet cnn ocr
MIT License
1.14k stars 285 forks source link

请问一下,您的ocr 中文模型用的是什么损失函数? #61

Open elliotgao opened 4 years ago

elliotgao commented 4 years ago

项目挺好的,ubuntu编译很顺利。 由于我这边使用需求有点不同,需要再训练一下当前的模型,所以想请教一下。感谢

看了一下您的ocr模型,我的理解大概如下: 它将输入一张 (H=32, W=w, Channel=1) 的灰度图像,然后经过几个conv和max pool层, 最后输出一张大概是 (H=1, W=int(np.ceil(w/4)-3), Channel=11316) 的图像。 所以这里是按照每个输出像素点,来进行多选一的分类? 能询问一下您用的是什么损失函数吗 (有没有用到lstm、drop out、regularization什么的),谢谢!

wenlihaoyu commented 4 years ago

就是一个简单的CNN网络,数据集大及数据增强做得很好,所有就没有用正则或者BN层,cpu版本已公布,可以测试一下,速度还是不错,可以稍微改造部署成CPU集群,替代GPU部署。损失函数是用的百度版本的CTC https://github.com/baidu-research/warp-ctc.git ,然后编译到darknet项目中。

jinlongfabxlab commented 4 years ago

同样的疑问,最后一层是个1N11316的输出,N对应识别字符的个数吗?当w=256,h=32时,最后一层15111316,也就是15个字符;对于测试图片dd.jpg,w=318,h=22,归一化以后 :w=462.5,h=32 应该对应28个字符?

elliotgao commented 4 years ago

同样的疑问,最后一层是个1_N_11316的输出,N对应识别字符的个数吗?当w=256,h=32时,最后一层15_1_11316,也就是15个字符;对于测试图片dd.jpg,w=318,h=22,归一化以后 :w=462.5,h=32 应该对应28个字符?

W=int(np.ceil(w/4)-3), 所以应该大约是 462 / 4 - 3 = 112 个字符

jinlongfabxlab commented 4 years ago

您好, 我是直接加载的训练好的模型,所以没有用到损失函数

------------------ 原始邮件 ------------------ 发件人: "Elliot Gao"<notifications@github.com>; 发送时间: 2020年5月8日(星期五) 下午4:09 收件人: "chineseocr/darknet-ocr"<darknet-ocr@noreply.github.com>; 抄送: "SJL"<214377915@qq.com>;"Comment"<comment@noreply.github.com>; 主题: Re: [chineseocr/darknet-ocr] 请问一下,您的ocr 中文模型用的是什么损失函数? (#61)

同样的疑问,最后一层是个1_N_11316的输出,N对应识别字符的个数吗?当w=256,h=32时,最后一层15_1_11316,也就是15个字符;对于测试图片dd.jpg,w=318,h=22,归一化以后 :w=462.5,h=32 应该对应28个字符?

W=int(np.ceil(w/4)-3), 所以应该大约是 462 / 4 - 3 = 112 个字符

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.