Closed upc-hao closed 1 year ago
单块tesla-T4 16G设置batchsize为8可以正常跑完训练,多卡训练选择两块T4,batchsize设置16个就爆显存了,而且爆显存重启内核后nvidia-smi查看,0号显存正常释放了,1号显存一直是接近百分百占用率。从下午到晚上也没整明白原因,求教大神多卡训练还需要额外的设置吗?
多卡训练选择两块T4,batchsize设置16个就爆显存了
多卡还是8才对啊,你只是卡多了,有不是显存多了
单块tesla-T4 16G设置batchsize为8可以正常跑完训练,多卡训练选择两块T4,batchsize设置16个就爆显存了,而且爆显存重启内核后nvidia-smi查看,0号显存正常释放了,1号显存一直是接近百分百占用率。从下午到晚上也没整明白原因,求教大神多卡训练还需要额外的设置吗?