bubbliiiing / yolov4-keras

这是一个YoloV4-keras的源码,可以用于训练自己的模型。
MIT License
491 stars 186 forks source link

训练3个epoch后loss变为nan #8

Open ZaoYum-Liao opened 4 years ago

ZaoYum-Liao commented 4 years ago

如果我把mosaic设置为True,大概第一个epoch走了一半就nan了。 如果我把mosaic设置为False, 大概第三个epoch走了一大半后就nan了是什么问题呢.

bubbliiiing commented 4 years ago

你训练的是啥呢,没有遇见过

qybing commented 4 years ago

我也遇到了,有的nan,有的正常

bubbliiiing commented 4 years ago

你们训练的物体的情况可以透露一下么,我也不知道是什么问题

bubbliiiing commented 4 years ago

已经给ciou所有除号加上了epsilon的判断,你们再试试看

ZaoYum-Liao commented 4 years ago

你们训练的物体的情况可以透露一下么,我也不知道是什么问题

我是做垃圾分类的

ZaoYum-Liao commented 4 years ago

已经给ciou所有除号加上了epsilon的判断,你们再试试看

好的,今晚试了看看哈

bubbliiiing commented 4 years ago

是否解决?

ZaoYum-Liao commented 4 years ago

是否解决?

我把代码重新更新了一下,问题消失了..... 请问一下,我通过nvidia-smi查看发现我的gpu_v100显卡利用率还不到10%,我可以通过model.fit_generator方法设置workers和use_multiprocessing来提高显卡利用率呢?但我设置后它又报出告警信息说有可能会产生副本,建议使用重写类继承Sequence类啥的

bubbliiiing commented 4 years ago

你应该是需要提高batch_size吧

hongqingxie commented 4 years ago

我也遇到一樣的問題,請問可以分享一下最後是怎麼解決的嗎?

bubbliiiing commented 4 years ago

我也遇到一樣的問題,請問可以分享一下最後是怎麼解決的嗎?

已经给ciou所有除号加上了epsilon的判断,你可以重下试试看

Franco52576 commented 4 years ago

我也遇到了一样的问题,使用最新的加epsilon还是出现nan的情况,我做的是交通标志检测

bubbliiiing commented 4 years ago

你可以重新开始训练试试

我也遇到了一样的问题,使用最新的加epsilon还是出现nan的情况,我做的是交通标志检测

MiniLisaBear commented 4 years ago

你可以重新开始训练试试

我也遇到了一样的问题,使用最新的加epsilon还是出现nan的情况,我做的是交通标志检测

我训练voc遇到nan是什么原因呢?最开始训练numpy版本不一致还能出结果只是在一个epoch快结束时出现not '_NoValueType'错误,然后版本换成一致之后,就是nan了

bubbliiiing commented 4 years ago

一般这种问题我都是从这个世代开始训练……一般都能解决,我也暂时没有很理解为什么会出现nan

fanjiaqi123 commented 4 years ago

把batch_size值减小,亲测有效

MiniLisaBear commented 4 years ago

好的,我试一下,谢谢------------------ 原始邮件 ------------------ 发件人: "fanjiaqi123"<notifications@github.com> 发送时间: 2020年9月4日(星期五) 晚上9:02 收件人: "bubbliiiing/yolov4-keras"<yolov4-keras@noreply.github.com>; 抄送: "MiniLisaBear"<2511415342@qq.com>;"Comment"<comment@noreply.github.com>; 主题: Re: [bubbliiiing/yolov4-keras] 训练3个epoch后loss变为nan (#8)