模型训练问题 - Githubissues

G-200010 commented 3 months ago

您好我之前试着跑inference 跑通了现在跑出现了如下错误您可以帮忙看下吗麻烦了

G-200010 commented 3 months ago

我想我找到原因了您说需要设置batchsize为4才能达到训练效果我换了一张3090 重新配的环境环境存在一点问题现在和您readme中的单卡训练设置保持一致正在跑希望可以复现您的结果

h751410234 commented 3 months ago

（1）我尝试使用单卡batchsize设置为4训练发现并不能取得较好的精度，mAP50为48左右。我猜想可能和检测器有关，deformable detr可能需要大batch_size才可以练的比较好，推荐使用官方版本的deformable detr单卡训练一下看看是否精度也比较低以验证这一猜想。我们的精度是在4卡，总共batch_size=16的情况下得到的。（2）如果你想在单卡上得到较高的精度，我推荐你尝试使用我的新工作：DATR，DINO框架下的域适应训练将变得非常稳定。经过我的测试，在xView2DOTA任务中（使用Sim10k to Cityscapes的配置修改class_num即可），使用1块GPU训练mAP50达到了64.4。

G-200010 commented 3 months ago

（1）我尝试使用单卡batchsize设置为4训练发现并不能取得较好的精度，mAP50为48左右。我猜想可能和检测器有关，deformable detr可能需要大batch_size才可以练的比较好，推荐使用官方版本的deformable detr单卡训练一下看看是否精度也比较低以验证这一猜想。我们的精度是在4卡，总共batch_size=16的情况下得到的。（2）如果你想在单卡上得到较高的精度，我推荐你尝试使用我的新工作：DATR，DINO框架下的域适应训练将变得非常稳定。经过我的测试，在xView2DOTA任务中（使用Sim10k to Cityscapes的配置修改class_num即可），使用1块GPU训练mAP50达到了64.4。

谢谢您的回答您好请问对于这篇工作您单卡4batchsize训练时用的多大的显存是否有显存一直增大的现象 3090 24G 足够吗您说的新工作我用3090 24G单卡可以训练的动吗期待您的回复

h751410234 commented 3 months ago

显存应该是随着训练波动的，我不太确定24G是否足够。目前DETR-Based的检测器都比较吃显存，感觉会费劲，我这边的单卡是48G的显存。

G-200010 commented 3 months ago

好的感谢您细致的回复我接下来会学习您的几项工作的

G-200010 commented 3 months ago

您好我现在在跑您这篇文章的模型（因为目前只有3090 所以尝试的是batchsize为2 先设的4直接爆显存了）目的是想先跑通一下但是遇到了一个问题显存会随着epoch增加不断增大最开始时是10G左右但是现在15轮时到了20个G 请问您知道这个是怎么回事吗代码中有相应设定和处理模块吗（最初跑batchsize为4时也存在显存占用随epoch增长显存占用增大的问题随着显存占用逐渐增大最后爆显存了）之前您回复过batchsize为2时显存会浮动在15个G左右但是我遇到的情况和您不一致期待您的回复

ZFU123456 commented 2 months ago

（1）我尝试使用单卡batchsize设置为4训练发现并不能取得较好的精度，mAP50为48左右。我猜想可能和检测器有关，deformable detr可能需要大batch_size才可以练的比较好，推荐使用官方版本的deformable detr单卡训练一下看看是否精度也比较低以验证这一猜想。我们的精度是在4卡，总共batch_size=16的情况下得到的。（2）如果你想在单卡上得到较高的精度，我推荐你尝试使用我的新工作：DATR，DINO框架下的域适应训练将变得非常稳定。经过我的测试，在xView2DOTA任务中（使用Sim10k to Cityscapes的配置修改class_num即可），使用1块GPU训练mAP50达到了64.4。

（1）我尝试使用单卡batchsize设置为4训练发现并不能取得较好的精度，mAP50为48左右。我猜想可能和检测器有关，deformable detr可能需要大batch_size才可以练的比较好，推荐使用官方版本的deformable detr单卡训练一下看看是否精度也比较低以验证这一猜想。我们的精度是在4卡，总共batch_size=16的情况下得到的。（2）如果你想在单卡上得到较高的精度，我推荐你尝试使用我的新工作：DATR，DINO框架下的域适应训练将变得非常稳定。经过我的测试，在xView2DOTA任务中（使用Sim10k to Cityscapes的配置修改class_num即可），使用1块GPU训练mAP50达到了64.4。您好，我在DATR这个工作上，单卡训练后的结果是：是哪里出错了呢

h751410234 / RemoteSensingTeacher

模型训练问题 #7