shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型,实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。
Apache License 2.0
2.94k stars 452 forks source link

2机器16卡出现的问题 #319

Closed listwebit closed 5 months ago

listwebit commented 5 months ago

Describe the bug

不好意思徐老师,打扰您了,老师希望你帮帮忙呀,我在研究您的项目好几天了,卡在两个机器全量训练几天没有解决。 具体详情参考上一个问题:https://github.com/shibing624/MedicalGPT/issues/318

我有几个问题老师: 1.按照您文档说明:30B模型全量参数更新,需要600GB的显存,我现在两个机器1280G内存,理论上应该可以跑起来的,是什么原因跑不起了呢 2.按照您的说明我已经使用了模型并行:--deepspeed deepspeed_zero_stage3_config.json ,但是两个机器还是报GPU不足 3.老师我想用全量参数更新,不想用qlora训练,或者lora等其他方式,2台机器能不能跑起来呢,是代码问题还是,机器资源不足呢,如果是机器资源不足,需要多少天机器呢,会不会增加机器最后还是报GPU资源不足呢 4.您回复:“-nproc_per_node 8 改为 --nproc_per_node 1, 不要数据并行,否则会显存不够“ ,nproc_per_node 从8改为1,不就是只占用了1个GPU卡,我试了试,更跑不起来,用模型并行指的就是:--deepspeed deepspeed_zero_stage3_config.json 把,我试试还是报GPU不足。

期待老师的详细回复,救救我呀!

shibing624 commented 5 months ago

不用新开issue,我在旧问题上答复。