Open zhangvia opened 1 year ago
你好可以的,我这里训练的图像分辨率是256x256,显存占用快到了40G,但不会OOM,当前不太推荐使用fp16进行训练。 bs=8,256x256,需要32062MiB的显存,你可以开启recompute以求节省显存。
你好可以的,我这里训练的图像分辨率是256x256,显存占用快到了40G,但不会OOM,当前不太推荐使用fp16进行训练。 bs=8,256x256,需要32062MiB的显存,你可以开启recompute以求节省显存。
那在a100 40g上bs最多也只能调10,还是感觉有点小。另外想问下多机多卡下是采用的socket通信是吗,支持IB网络吗
你好可以的,我这里训练的图像分辨率是256x256,显存占用快到了40G,但不会OOM,当前不太推荐使用fp16进行训练。 bs=8,256x256,需要32062MiB的显存,你可以开启recompute以求节省显存。 另外想问一下,开启多机多卡训练,是不是需要在每台机子上部署项目的依赖环境以及项目代码?
请提出你的问题
我使用了ppdiffusers/examples/text_to_image_laion400m/中的训练脚本,训练命令即该文件夹下的单机多卡命令。其中修改了batchsize为4,机子是4张4090,batchsize为4的时候单张显存消耗已经达到14g以上。这真的能在40g的机子上16的batchsize跑起来?我使用了fp16后,显存消耗并没有明显变化