论文里展示的更小的T2I模型，大概什么适合会释放出来啊？现有的2B的NEXT模型V100也还是训练不起来吧

Alpha-VLLM / Lumina-T2X

Lumina-T2X is a unified framework for Text to Any Modality Generation

MIT License

2.04k stars 86 forks source link

论文里展示的更小的T2I模型，大概什么适合会释放出来啊？现有的2B的NEXT模型V100也还是训练不起来吧 #42

Open heart-du opened 4 months ago

PommesPeter commented 4 months ago

Hi @heart-du ,

更小的模型我们仍然还在测试， please stay tuned. 2B 参数量的模型需要 80G 显存的显卡才可训练，后续会推出 lora 微调版本

heart-du commented 4 months ago

后续会有64G显卡能训练的模型释放出来吗

ChrisLiu6 commented 4 months ago

后续会有64G显卡能训练的模型释放出来吗

由于训练引入了FSDP，单卡负载会随着卡数上升而降低。8卡64G在256px或512px下应该是可以做到对2B模型的微调的。

heart-du commented 4 months ago

如果是96张64G的卡呢，可以重头训练2B的模型吗

ChrisLiu6 commented 4 months ago

如果是96张64G的卡呢，可以重头训练2B的模型吗

显存角度应该是完全没有问题的

densechen commented 3 months ago

后续会有64G显卡能训练的模型释放出来吗

由于训练引入了FSDP，单卡负载会随着卡数上升而降低。8卡64G在256px或512px下应该是可以做到对2B模型的微调的。

FSDP 经常会出现：Non-root FSDP instance's _is_root should not have been set yet or should have been set to False

请问主要是什么原因导致的呢，这边能给一些可能的分析吗 @ChrisLiu6

ChrisLiu6 commented 3 months ago

后续会有64G显卡能训练的模型释放出来吗

由于训练引入了FSDP，单卡负载会随着卡数上升而降低。8卡64G在256px或512px下应该是可以做到对2B模型的微调的。

FSDP 经常会出现：Non-root FSDP instance's _is_root should not have been set yet or should have been set to False

请问主要是什么原因导致的呢，这边能给一些可能的分析吗 @ChrisLiu6

我没有遇到过类似问题，按照你的描述猜测可能是用FSDP包裹一个模型M的时候，M内的某个子模型已经被FSDP包裹。比如如果text encoder本身写成了diffusion model的一个sub module，然后先对text encoder做setup_llm_fsdp，再对diffusion模型做setup_fsdp，可能会出现这类问题