PaddlePaddle / PaddleNLP

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.
https://paddlenlp.readthedocs.io
Apache License 2.0
12.17k stars 2.94k forks source link

[Question]: text_to_image训练显存消耗过大 #5717

Open zhangvia opened 1 year ago

zhangvia commented 1 year ago

请提出你的问题

我使用了ppdiffusers/examples/text_to_image_laion400m/中的训练脚本,训练命令即该文件夹下的单机多卡命令。其中修改了batchsize为4,机子是4张4090,batchsize为4的时候单张显存消耗已经达到14g以上。这真的能在40g的机子上16的batchsize跑起来?我使用了fp16后,显存消耗并没有明显变化

JunnYu commented 1 year ago

你好可以的,我这里训练的图像分辨率是256x256,显存占用快到了40G,但不会OOM,当前不太推荐使用fp16进行训练。 bs=8,256x256,需要32062MiB的显存,你可以开启recompute以求节省显存。

zhangvia commented 1 year ago

你好可以的,我这里训练的图像分辨率是256x256,显存占用快到了40G,但不会OOM,当前不太推荐使用fp16进行训练。 bs=8,256x256,需要32062MiB的显存,你可以开启recompute以求节省显存。

那在a100 40g上bs最多也只能调10,还是感觉有点小。另外想问下多机多卡下是采用的socket通信是吗,支持IB网络吗

zhangvia commented 1 year ago

你好可以的,我这里训练的图像分辨率是256x256,显存占用快到了40G,但不会OOM,当前不太推荐使用fp16进行训练。 bs=8,256x256,需要32062MiB的显存,你可以开启recompute以求节省显存。 另外想问一下,开启多机多卡训练,是不是需要在每台机子上部署项目的依赖环境以及项目代码?