Open JiayuanWang-JW opened 6 months ago
这是卡住时显卡的样子。
我认为训练总卡住的原因是mmdet库有bug,我用单卡训练了一下,同样的配置文件,AdamW优化器可以正常训练,梯度一切正常,预测结果令人满意。可惜截至目前为止,mmdet并没有针对这个bug给出解决方案。
我认为训练总卡住的原因是mmdet库有bug,我用单卡训练了一下,同样的配置文件,AdamW优化器可以正常训练,梯度一切正常,预测结果令人满意。可惜截至目前为止,mmdet并没有针对这个bug给出解决方案。
或许你可以尝试在你第十个epoch的时候把实验停了,然后接着第九个epoch(假设你保存下来了)继续训,我这边训练检测模型的时候也越到过卡住的,但是继续--resume之后可以正常训,如果又卡住,就继续接着训应该就可以,我最多只遇到过卡住两次的
我认为训练总卡住的原因是mmdet库有bug,我用单卡训练了一下,同样的配置文件,AdamW优化器可以正常训练,梯度一切正常,预测结果令人满意。可惜截至目前为止,mmdet并没有针对这个bug给出解决方案。
或许你可以尝试在你第十个epoch的时候把实验停了,然后接着第九个epoch(假设你保存下来了)继续训,我这边训练检测模型的时候也越到过卡住的,但是继续--resume之后可以正常训,如果又卡住,就继续接着训应该就可以,我最多只遇到过卡住两次的
谢谢您的建议,我按照您的建议继续--resume训练,确实可以,但是在第13个epochs又卡住了,应该是多卡之间的通信出了问题,因为我看显存,服务器内存都没占满,只是显卡利用率都100%了,然后就卡住不训练了。
我认为训练总卡住的原因是mmdet库有bug,我用单卡训练了一下,同样的配置文件,AdamW优化器可以正常训练,梯度一切正常,预测结果令人满意。可惜截至目前为止,mmdet并没有针对这个bug给出解决方案。
或许你可以尝试在你第十个epoch的时候把实验停了,然后接着第九个epoch(假设你保存下来了)继续训,我这边训练检测模型的时候也越到过卡住的,但是继续--resume之后可以正常训,如果又卡住,就继续接着训应该就可以,我最多只遇到过卡住两次的
谢谢您的建议,我按照您的建议继续--resume训练,确实可以,但是在第13个epochs又卡住了,应该是多卡之间的通信出了问题,因为我看显存,服务器内存都没占满,只是显卡利用率都100%了,然后就卡住不训练了。
你好 @JiayuanWang-JW ,我现在遇到的问题是,我同样拿自己的数据集进行训练,但是只有loss_cls损失下降,其他两个loss_bbox和loss_dfl损失一直为0,您能帮我分析一下对应的问题吗?谢谢
我认为训练总卡住的原因是mmdet库有bug,我用单卡训练了一下,同样的配置文件,AdamW优化器可以正常训练,梯度一切正常,预测结果令人满意。可惜截至目前为止,mmdet并没有针对这个bug给出解决方案。
或许你可以尝试在你第十个epoch的时候把实验停了,然后接着第九个epoch(假设你保存下来了)继续训,我这边训练检测模型的时候也越到过卡住的,但是继续--resume之后可以正常训,如果又卡住,就继续接着训应该就可以,我最多只遇到过卡住两次的
谢谢您的建议,我按照您的建议继续--resume训练,确实可以,但是在第13个epochs又卡住了,应该是多卡之间的通信出了问题,因为我看显存,服务器内存都没占满,只是显卡利用率都100%了,然后就卡住不训练了。
你好 @JiayuanWang-JW ,我现在遇到的问题是,我同样拿自己的数据集进行训练,但是只有loss_cls损失下降,其他两个loss_bbox和loss_dfl损失一直为0,您能帮我分析一下对应的问题吗?谢谢
你好@chenjiafu-George , 这个问题我没遇到过,但我之前在issue中看到其他研究者在检测任务上遇到了同样的问题,你可以参考一下。loss为0的issue
你好@JiayuanWang-JW ,我也遇到和你一样的问题,这个问题你解决了吗?只能用单卡训练了吗?
我使用yolo_world_v2_seg_l_vlpan_bn_2e-4_80e_8gpus_seghead_finetune_lvis.py在我自己的数据集上微调,总是训练到中途就停止,问题应该是梯度爆炸了。我调小了一些学习率还是不行。还有一种可能就是mmlab框架的问题,因为我看到有相似的issue在mmlab里。 但是这个方式训练出来的第5个epochs模型效果比较不错,第10个epochs我一直还没训练到过,每次到了第10个就会卡住,我设置的最大epochs是80。卡住的时候显存没满,但是显卡使用率全100%,就是不会继续训练了。以下是部分训练日志。
不过我按照您之前提供的检测任务新代码将优化器设置为SGD后,训练可以顺利进行,但是结果很糟糕......甚至无法正常分割任何内容,这是SGD的部分训练日志。
请问可以帮我分析一下原因吗?