请教一下，运行训练脚本一直显示loss:nan是怎么回事？

armaab / hyperlpr-train

Script to train Hyperlpr(https://github.com/zeusees/HyperLPR)

Apache License 2.0

126 stars 79 forks source link

Closed axltfytx closed 6 years ago

axltfytx commented 6 years ago

您好，请教一下，batch 设置为100，运行后一直是loss：nan，batch设置多少合适？还是需要修改别的参数？

armaab commented 6 years ago

正常情况下不会出现这种现象，我一般将batch设置为10。可能是其它原因导致的，你提供的信息有限，我无法判断。

szuRyan commented 6 years ago

我用你这个代码训练batch设置为16，为什么ctc loss值一直在18徘徊不下降了。你训练时loss值是多少呢

szuRyan commented 6 years ago

@axltfytx 你的batch 640？太大了吧

axltfytx commented 6 years ago

我从10,100,120,160,640一直改，改到1024提示内存不够了，都是同样的提示，是不是刚开始是nan，训练一段时间后才不是nan？ @szuRyan

szuRyan commented 6 years ago

会不会是你的数据集有问题，把batch改小，最好不要超过128吧。或则改成1看看是不是数据问题。

armaab commented 6 years ago

@szuRyan 我很久没从事相关工作了，大概记得损失函数会到1以下。

MrCuiHao commented 5 years ago

我的车牌训练数据集大约4000张，验证集大约1000张，用此代码训练，把batch从大调到最小为1, 学习率不断调小尝试，都会一开始收敛，一会就loss=nan，epoch=1的时候就开始这样流，控制台输出效果如图所示，请问有没有解决方案，非常感谢：