yeyupiaoling / PPASR

基于PaddlePaddle实现端到端中文语音识别,从入门到实战,超简单的入门案例,超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型
Apache License 2.0
807 stars 128 forks source link

多卡训练时爆显存的问题 #120

Closed upc-hao closed 1 year ago

upc-hao commented 1 year ago

单块tesla-T4 16G设置batchsize为8可以正常跑完训练,多卡训练选择两块T4,batchsize设置16个就爆显存了,而且爆显存重启内核后nvidia-smi查看,0号显存正常释放了,1号显存一直是接近百分百占用率。从下午到晚上也没整明白原因,求教大神多卡训练还需要额外的设置吗? image

yeyupiaoling commented 1 year ago

多卡训练选择两块T4,batchsize设置16个就爆显存了

多卡还是8才对啊,你只是卡多了,有不是显存多了