Sierkinhane / CRNN_Chinese_Characters_Rec

(CRNN) Chinese Characters Recognition.
1.81k stars 537 forks source link

训练出现loss为nan #217

Open gavenswang opened 4 years ago

gavenswang commented 4 years ago

我在作者的模型基础上训练自己的数据,迭代几步后loss变成nan,不知道是不是数据的问题,请问各位这样的情况怎么解决,怎么找到出问题的数据?

Sierkinhane commented 4 years ago

用的是最新的仓库吗?torch版本是多少

qingzhu0214 commented 4 years ago

用的是最新的仓库吗?torch版本是多少

你好,我的torch版本是1.5.0+cu101,也出现了题主的loss为nan的情况,用的数据集是模拟生成的不定长英文数据集,请问是这个不定长的原因吗?

Sierkinhane commented 4 years ago

我在torch1.2.0上训练不会出现NAN

qingzhu0214 commented 4 years ago

我在torch1.2.0上训练不会出现NAN

我降低一下版本试试,谢谢您的回复^^

jiaoxiaosong commented 4 years ago

我在1.2.0上还是会出现nan

zwy4896 commented 4 years ago

pytorch自带的ctcloss在gpu上运行label长度要<256 image 我自己在训练时也会出现这种错,把超过256的label剔除出去,loss就可以正常计算了。这个问题一直到1.5版本依然存在。

jiaoxiaosong commented 4 years ago

我在gpu上运行torch=1.2.0,跑了一会就变成cpu运行了?

---原始邮件--- 发件人: "Wuyang"<notifications@github.com> 发送时间: 2020年5月28日(周四) 下午4:53 收件人: "Sierkinhane/CRNN_Chinese_Characters_Rec"<CRNN_Chinese_Characters_Rec@noreply.github.com>; 抄送: "Comment"<comment@noreply.github.com>;"jiaoxiaosong"<872909437@qq.com>; 主题: Re: [Sierkinhane/CRNN_Chinese_Characters_Rec] 训练出现loss为nan (#217)

pytorch自带的ctcloss在gpu上运行label长度要<256

我自己在训练时也会出现这种错,把超过256的label剔除出去,loss就可以正常计算了。这个问题一直到1.5版本依然存在。

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

xuefanfu commented 4 years ago

pytorch自带的ctcloss在gpu上运行label长度要<256 image 我自己在训练时也会出现这种错,把超过256的label剔除出去,loss就可以正常计算了。这个问题一直到1.5版本依然存在。

这个256长度的label 是一个batch超过256 还是一张图片中的标签超过256

gaoshangle commented 3 years ago

请问loss @@@@为None的问题解决了吗?我把label中长度大于10的全部剔除,就不会出现这种问题了,但是这样不太好 @gavenswang

ingale726 commented 3 years ago

pytorch自带的ctcloss在gpu上运行label长度要<256 image 我自己在训练时也会出现这种错,把超过256的label剔除出去,loss就可以正常计算了。这个问题一直到1.5版本依然存在。

这个256长度的label 是一个batch超过256 还是一张图片中的标签超过256

同问!!!!!!!!!!!!!!! pytorch1.7.1,cuda10.1,还是会有naN出现

19ethan commented 3 years ago

我自己生成了一批样本。label长度从1到20,训练中loss 老是变成nan ,但是奇怪的是我光训练不定长的英文字符时,是没有这种问题的,大家碰到过这种问题吗?

oszn commented 3 years ago

我自己生成了一批样本。label长度从1到20,训练中loss 老是变成nan ,但是奇怪的是我光训练不定长的英文字符时,是没有这种问题的,大家碰到过这种问题吗?

我训练过程发现序列过长会导致nan出现。

wu-yz commented 3 months ago

我自己生成了一批样本。label长度从1到20,训练中loss 老是变成nan ,但是奇怪的是我光训练不定长的英文字符时,是没有这种问题的,大家碰到过这种问题吗?

我训练过程发现序列过长会导致nan出现。

请问怎么解决呀