Open zengyangzang opened 1 year ago
有的,这个需要batchsize设置小一些,如果最开始跑占用的显存是5000MB左右,最后稳定的时候是8200多MB。
降低batchsize,用apex半精度训练。
多卡的话,就DDP,半精度在数据量足够多用(10w以上吧),不然会不收敛
有的,这个需要batchsize设置小一些,如果最开始跑占用的显存是5000MB左右,最后稳定的时候是8200多MB。