IDEA-Research / DINO

[ICLR 2023] Official implementation of the paper "DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection"
Apache License 2.0
2.19k stars 243 forks source link

使用run_with_submitit.py训练的问题 #193

Open IU-LEEJIEUN opened 1 year ago

IU-LEEJIEUN commented 1 year ago

作者您好,我在使用DINO_train_submitit.sh脚本训练的时候,我sh里定义--ngpus 2 或者--ngpus 4,我的电脑里有4个gpu,并且我print了一些信息,看见分配的时候也是每个进程各分配一张gpu,但训练起来的时候就出现多个进程同时占用同一个gpu显存的问题,导致前几个进程直接崩溃,只留下最后一个进程在那里训练。我想问一下这个问题怎么解决呢,谢谢!

alpacaduby commented 1 year ago

我也碰到这个问题,您是怎么解决的?谢谢!

Kim-yhao commented 1 year ago

作者您好,我在使用DINO_train_submitit.sh脚本训练的时候,我sh里定义--ngpus 2 或者--ngpus 4,我的电脑里有4个gpu,并且我print了一些信息,看见分配的时候也是每个进程各分配一张gpu,但训练起来的时候就出现多个进程同时占用同一个gpu显存的问题,导致前几个进程直接崩溃,只留下最后一个进程在那里训练。我想问一下这个问题怎么解决呢,谢谢!

训练后只出现一个Submitted job_id并且只有一张卡在使用,但是设置了--ngpus 2。怎么查看训练情况并且让gpu都跑起来,您解决了吗?谢谢!

IU-LEEJIEUN commented 1 year ago

您发给我的信件已经收到,谢谢您的来信!