easton-cau / SOTR

SOTR: Segmenting Objects with Transformers
MIT License
193 stars 32 forks source link

关于训练 #10

Closed roar-1128 closed 2 years ago

roar-1128 commented 2 years ago

作者您好,我在集群训练的时候出现问题,希望您能解答一下:

我的环境是: torch == 1.7.1 torchvision == 0.8.2 detectron == 0.2.1

集群显卡使用: 1块显存12G的V100

学习率设置: IMS_PER_BATCH: 2 BASE_LR: 0.00001 WARMUP_FACTOR: 0.00001 报出结果:NAN

学习率设置: IMS_PER_BATCH: 4 BASE_LR: 0.00001 WARMUP_FACTOR: 0.00001 报错结果:CUDA out of memory

请问怎么解决这个问题?

roar-1128 commented 2 years ago

是16g的v100

easton-cau commented 2 years ago

您好,我将BatchSize设置为2,GPU数量设置为1,学习率不变,没有出现NAN的情况,但是Loss下降会有波动,且较为缓慢。我认为这可能是BatchSize设置的太小,导致梯度震荡严重,不利于收敛。建议更换算力,增大BatchSize或者在多块GPU上运行。

roar-1128 commented 2 years ago

感谢作者的回复,我再尝试一下多块GPU