单机多卡sft deepspeed zero3 训练一直卡在训练阶段

shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。

Apache License 2.0

2.94k stars 452 forks source link

Open lainxx opened 4 months ago

lainxx commented 4 months ago

一致卡在0，但是显存利用率是满的，不知道为啥

shibing624 commented 4 months ago

zero3需要把model权重offload到本地，效率低（速度慢），可以先试试用7b的模型跑小样本测试下。