Alpha-VLLM / Lumina-T2X

Lumina-T2X is a unified framework for Text to Any Modality Generation
MIT License
2.04k stars 86 forks source link

论文里展示的更小的T2I模型,大概什么适合会释放出来啊?现有的2B的NEXT模型V100也还是训练不起来吧 #42

Open heart-du opened 4 months ago

PommesPeter commented 4 months ago

Hi @heart-du ,

更小的模型我们仍然还在测试, please stay tuned. 2B 参数量的模型需要 80G 显存的显卡才可训练,后续会推出 lora 微调版本

heart-du commented 4 months ago

后续会有64G显卡能训练的模型释放出来吗

ChrisLiu6 commented 4 months ago

后续会有64G显卡能训练的模型释放出来吗

由于训练引入了FSDP,单卡负载会随着卡数上升而降低。8卡64G在256px或512px下应该是可以做到对2B模型的微调的。

heart-du commented 4 months ago

如果是96张64G的卡呢,可以重头训练2B的模型吗

ChrisLiu6 commented 4 months ago

如果是96张64G的卡呢,可以重头训练2B的模型吗

显存角度应该是完全没有问题的

densechen commented 3 months ago

后续会有64G显卡能训练的模型释放出来吗

由于训练引入了FSDP,单卡负载会随着卡数上升而降低。8卡64G在256px或512px下应该是可以做到对2B模型的微调的。

FSDP 经常会出现:Non-root FSDP instance's _is_root should not have been set yet or should have been set to False

请问主要是什么原因导致的呢,这边能给一些可能的分析吗 @ChrisLiu6

ChrisLiu6 commented 3 months ago

后续会有64G显卡能训练的模型释放出来吗

由于训练引入了FSDP,单卡负载会随着卡数上升而降低。8卡64G在256px或512px下应该是可以做到对2B模型的微调的。

FSDP 经常会出现:Non-root FSDP instance's _is_root should not have been set yet or should have been set to False

请问主要是什么原因导致的呢,这边能给一些可能的分析吗 @ChrisLiu6

我没有遇到过类似问题,按照你的描述猜测可能是用FSDP包裹一个模型M的时候,M内的某个子模型已经被FSDP包裹。比如如果text encoder本身写成了diffusion model的一个sub module,然后先对text encoder做setup_llm_fsdp,再对diffusion模型做setup_fsdp,可能会出现这类问题