[Question]: text_to_image训练显存消耗过大

PaddlePaddle / PaddleNLP

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.

https://paddlenlp.readthedocs.io

Apache License 2.0

12.17k stars 2.94k forks source link

[Question]: text_to_image训练显存消耗过大 #5717

Open zhangvia opened 1 year ago

zhangvia commented 1 year ago

请提出你的问题

我使用了ppdiffusers/examples/text_to_image_laion400m/中的训练脚本，训练命令即该文件夹下的单机多卡命令。其中修改了batchsize为4，机子是4张4090，batchsize为4的时候单张显存消耗已经达到14g以上。这真的能在40g的机子上16的batchsize跑起来？我使用了fp16后，显存消耗并没有明显变化

JunnYu commented 1 year ago

你好可以的，我这里训练的图像分辨率是256x256，显存占用快到了40G，但不会OOM，当前不太推荐使用fp16进行训练。 bs=8，256x256，需要32062MiB的显存，你可以开启recompute以求节省显存。

zhangvia commented 1 year ago

你好可以的，我这里训练的图像分辨率是256x256，显存占用快到了40G，但不会OOM，当前不太推荐使用fp16进行训练。 bs=8，256x256，需要32062MiB的显存，你可以开启recompute以求节省显存。

那在a100 40g上bs最多也只能调10，还是感觉有点小。另外想问下多机多卡下是采用的socket通信是吗，支持IB网络吗

zhangvia commented 1 year ago

你好可以的，我这里训练的图像分辨率是256x256，显存占用快到了40G，但不会OOM，当前不太推荐使用fp16进行训练。 bs=8，256x256，需要32062MiB的显存，你可以开启recompute以求节省显存。另外想问一下，开启多机多卡训练，是不是需要在每台机子上部署项目的依赖环境以及项目代码？