2机器16卡出现的问题

Describe the bug

不好意思徐老师，打扰您了，老师希望你帮帮忙呀，我在研究您的项目好几天了，卡在两个机器全量训练几天没有解决。具体详情参考上一个问题：https://github.com/shibing624/MedicalGPT/issues/318

我有几个问题老师： 1.按照您文档说明：30B模型全量参数更新，需要600GB的显存，我现在两个机器1280G内存，理论上应该可以跑起来的，是什么原因跑不起了呢 2.按照您的说明我已经使用了模型并行：--deepspeed deepspeed_zero_stage3_config.json ，但是两个机器还是报GPU不足 3.老师我想用全量参数更新，不想用qlora训练，或者lora等其他方式，2台机器能不能跑起来呢，是代码问题还是，机器资源不足呢，如果是机器资源不足，需要多少天机器呢，会不会增加机器最后还是报GPU资源不足呢 4.您回复：“-nproc_per_node 8 改为 --nproc_per_node 1，不要数据并行，否则会显存不够“ ，nproc_per_node 从8改为1，不就是只占用了1个GPU卡，我试了试，更跑不起来，用模型并行指的就是：--deepspeed deepspeed_zero_stage3_config.json 把，我试试还是报GPU不足。

期待老师的详细回复，救救我呀！

shibing624 / MedicalGPT

2机器16卡出现的问题 #319

Describe the bug