训练CUlane数据集 instance loss 出现nan

yinhai86924 commented 5 years ago

QQ截图20190519132427 请问一下，需要调整哪里参数设置，

hellosher commented 5 years ago

@yinhai86924 我想问一下，你是用CULane数据集训练的时候怎么生成训练数据啊？

MaybeShewill-CV commented 5 years ago

@yinhai86924 You may refer to #33 .

yinhai86924 commented 5 years ago

@yinhai86924 我想问一下，你是用CULane数据集训练的时候怎么生成训练数据啊？

有相应的标签文件，自己转换就可以了

yinhai86924 commented 5 years ago

训练到eporch=355时候出现问题：是GPU内存分配不够吗训练的batch_size =4 __C.TRAIN.LEARNING_RATE = 0.0001 __C.TRAIN.GPU_MEMORY_FRACTION = 0.85 QQ截图20190519183915

MaybeShewill-CV commented 5 years ago

@yinhai86924 调小BATCH SIZE

yinhai86924 commented 5 years ago

@yinhai86924 调小BATCH SIZE 可以正常训练了，总共训练了11000次，是分阶段训练 3000 + 5000 + 3000 学习率= 0.001 batch_size =2 结果如下：

测试图： 0000 0011 0218 0188 0219

MaybeShewill-CV commented 5 years ago

@yinhai86924 你这个实例分割的loss太大了建议修改instance loss相关参数:)

yinhai86924 commented 5 years ago

我尝试修改了基础网络 encoder-decoder 部分，但是训练的时候出现nan，找了很久找不到原因。我怀疑是不是样本数量太少只有150张图像，学习率为0.0001 训练到2500左右出现nan，我重新训练的，感觉收敛比较快 QQ截图20190521120856 QQ截图20190521120906 QQ截图20190521120939 QQ截图20190521120328

MaybeShewill-CV commented 5 years ago

@yinhai86924 样本少一般也不会导致nan:)

yinhai86924 commented 5 years ago

试着将学习修改为0.00005，并没有出现nan，正常训练了7万次，在自己制作的数据集上，训练精度达到92.5%，观察还有上升的可能，inference时间大大提高，语义分割效果也很好。但在总体的的验证精度上却不高 50%左右。测试效果不理想。

MaybeShewill-CV commented 5 years ago

@yinhai86924 样本太少很容易过拟合:)

hellosher commented 5 years ago

@yinhai86924 您是用SCNN作者提供的工具生成的标签吗，或者是您自己制作的工具的话，方便分享吗，非常感谢^_^

yinhai86924 commented 5 years ago

没有用SCNN的转换工具自己写了一个------------------ 原始邮件 ------------------ 发件人: "sher"notifications@github.com 发送时间: 2019年6月18日(星期二) 下午5:14 收件人: "MaybeShewill-CV/lanenet-lane-detection"lanenet-lane-detection@noreply.github.com; 抄送: "yinhai86924"454960553@qq.com;"Mention"mention@noreply.github.com; 主题: Re: [MaybeShewill-CV/lanenet-lane-detection] 训练CUlane数据集 instance loss 出现nan (#220)

@yinhai86924 您使用SCNN作者提供的工具转化的标签吗？

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or mute the thread.

hellosher commented 5 years ago

@yinhai86924 方便分享或指导一下转换工具吗？

TGLTommy commented 5 years ago

@yinhai86924 您好，可否分享一下将CULane的train数据集转换成TuSimple格式的代码呢？非常感谢大佬～

jiguanglu commented 4 years ago

我尝试修改了基础网络 encoder-decoder 部分，但是训练的时候出现nan，找了很久找不到原因。我怀疑是不是样本数量太少只有150张图像，学习率为0.0001 训练到2500左右出现nan，我重新训练的，感觉收敛比较快。

楼主您好，请问你最后训练的效果怎么样？我这里那CUlane数据的2万张图片，是按照MaybeShewill-CV 大佬的代码，一步一步生成的，我只是把没有车道线的图片剔除掉了。Batch-Size=8 训练了大概10万次了，准确率在90%以上，但是测试的效果真的不太理想啊，您可以给点意见吗？

TGLTommy commented 4 years ago

Sorry, 很抱歉，我已经不接触这个领域了。具体也不了解，很长时间没有学习这个了。

lujiguang notifications@github.com 于2020年5月18日周一上午8:45写道：

我尝试修改了基础网络 encoder-decoder 部分，但是训练的时候出现nan，找了很久找不到原因。我怀疑是不是样本数量太少只有150张图像，学习率为0.0001 训练到2500左右出现nan，我重新训练的，感觉收敛比较快。

楼主您好，请问你最后训练的效果怎么样？我这里那CUlane数据的2万张图片，是按照MaybeShewill-CV 大佬的代码，一步一步生成的，我只是把没有车道线的图片剔除掉了。Batch-Size=8 训练了大概10万次了，准确率在90%以上，但是测试的效果真的不太理想啊，您可以给点意见吗？

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/MaybeShewill-CV/lanenet-lane-detection/issues/220#issuecomment-629889543, or unsubscribe https://github.com/notifications/unsubscribe-auth/AGJDG3TYZZOIT2RB3TRZG63RSCAJFANCNFSM4HN3WEWQ .

MaybeShewill-CV / lanenet-lane-detection

训练CUlane数据集 instance loss 出现nan #220