armaab / hyperlpr-train

Script to train Hyperlpr(https://github.com/zeusees/HyperLPR)
Apache License 2.0
126 stars 79 forks source link

请教一下,运行训练脚本一直显示loss:nan是怎么回事? #9

Closed axltfytx closed 6 years ago

axltfytx commented 6 years ago

您好,请教一下,batch 设置为100,运行后一直是loss:nan,batch设置多少合适?还是需要修改别的参数?

armaab commented 6 years ago

正常情况下不会出现这种现象,我一般将batch设置为10。可能是其它原因导致的,你提供的信息有限,我无法判断。

szuRyan commented 6 years ago

我用你这个代码训练batch设置为16,为什么ctc loss值一直在18徘徊不下降了。你训练时loss值是多少呢

szuRyan commented 6 years ago

@axltfytx 你的batch 640?太大了吧

axltfytx commented 6 years ago

我从10,100,120,160,640一直改,改到1024提示内存不够了,都是同样的提示,是不是刚开始是nan,训练一段时间后才不是nan? @szuRyan

szuRyan commented 6 years ago

会不会是你的数据集有问题,把batch改小,最好不要超过128吧。或则改成1看看是不是数据问题。

armaab commented 6 years ago

@szuRyan 我很久没从事相关工作了,大概记得损失函数会到1以下。

MrCuiHao commented 5 years ago

我的车牌训练数据集大约4000张,验证集大约1000张,用此代码训练,把batch从大调到最小为1, 学习率不断调小尝试,都会一开始收敛,一会就loss=nan,epoch=1的时候就开始这样流,控制台输出效果如图所示,请问有没有解决方案,非常感谢: 图片