Open gavenswang opened 4 years ago
用的是最新的仓库吗?torch版本是多少
用的是最新的仓库吗?torch版本是多少
你好,我的torch版本是1.5.0+cu101,也出现了题主的loss为nan的情况,用的数据集是模拟生成的不定长英文数据集,请问是这个不定长的原因吗?
我在torch1.2.0上训练不会出现NAN
我在torch1.2.0上训练不会出现NAN
我降低一下版本试试,谢谢您的回复^^
我在1.2.0上还是会出现nan
pytorch自带的ctcloss在gpu上运行label长度要<256 我自己在训练时也会出现这种错,把超过256的label剔除出去,loss就可以正常计算了。这个问题一直到1.5版本依然存在。
我在gpu上运行torch=1.2.0,跑了一会就变成cpu运行了?
---原始邮件--- 发件人: "Wuyang"<notifications@github.com> 发送时间: 2020年5月28日(周四) 下午4:53 收件人: "Sierkinhane/CRNN_Chinese_Characters_Rec"<CRNN_Chinese_Characters_Rec@noreply.github.com>; 抄送: "Comment"<comment@noreply.github.com>;"jiaoxiaosong"<872909437@qq.com>; 主题: Re: [Sierkinhane/CRNN_Chinese_Characters_Rec] 训练出现loss为nan (#217)
pytorch自带的ctcloss在gpu上运行label长度要<256
我自己在训练时也会出现这种错,把超过256的label剔除出去,loss就可以正常计算了。这个问题一直到1.5版本依然存在。
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
pytorch自带的ctcloss在gpu上运行label长度要<256 我自己在训练时也会出现这种错,把超过256的label剔除出去,loss就可以正常计算了。这个问题一直到1.5版本依然存在。
这个256长度的label 是一个batch超过256 还是一张图片中的标签超过256
请问loss @@@@为None的问题解决了吗?我把label中长度大于10的全部剔除,就不会出现这种问题了,但是这样不太好 @gavenswang
pytorch自带的ctcloss在gpu上运行label长度要<256 我自己在训练时也会出现这种错,把超过256的label剔除出去,loss就可以正常计算了。这个问题一直到1.5版本依然存在。
这个256长度的label 是一个batch超过256 还是一张图片中的标签超过256
同问!!!!!!!!!!!!!!! pytorch1.7.1,cuda10.1,还是会有naN出现
我自己生成了一批样本。label长度从1到20,训练中loss 老是变成nan ,但是奇怪的是我光训练不定长的英文字符时,是没有这种问题的,大家碰到过这种问题吗?
我自己生成了一批样本。label长度从1到20,训练中loss 老是变成nan ,但是奇怪的是我光训练不定长的英文字符时,是没有这种问题的,大家碰到过这种问题吗?
我训练过程发现序列过长会导致nan出现。
我自己生成了一批样本。label长度从1到20,训练中loss 老是变成nan ,但是奇怪的是我光训练不定长的英文字符时,是没有这种问题的,大家碰到过这种问题吗?
我训练过程发现序列过长会导致nan出现。
请问怎么解决呀
我在作者的模型基础上训练自己的数据,迭代几步后loss变成nan,不知道是不是数据的问题,请问各位这样的情况怎么解决,怎么找到出问题的数据?