THUDM / CogVLM2

GPT4V-level open-source multi-modal model based on Llama3-8B
Apache License 2.0
2.02k stars 134 forks source link

关于微调的配置需求 #108

Closed pf67 closed 2 months ago

pf67 commented 3 months ago

请问后续有没有ds zero3的支持计划?

如果按照 当前给出的Zero2的最低需求,需要A100 * 8的资源才能做微调的话,很多公司和实验室都还不具备如此规模的设备,能使用的局限性就太大了

比如CogVLM1代模型, 我使用4090*4就能进行微调,现在2代打模型微调的成本上升太多了。

zRzRzRzRzRzRzR commented 3 months ago

1代提供的SAT的框架微调方法,2代目前放出的是HF的模型,用的peft。SAT目前的结构能实现TP,现在这个版本是DP,所以导致成本大幅度上升,我们有这个计划,并准备系统性的解决这个问题,至少能zero3

FUJIsyu0515 commented 3 months ago

请问zero3的支持预计会在什么时候发布呢?

zRzRzRzRzRzRzR commented 2 months ago

暂时没有相关的计划,因为要改的内容比较多,我们会尽快的去适配,目前还没有官方代码支持