shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型,实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。
Apache License 2.0
2.94k stars 452 forks source link

单机多卡sft deepspeed zero3 训练一直卡在训练阶段 #330

Open lainxx opened 4 months ago

lainxx commented 4 months ago

image image 一致卡在0,但是显存利用率是满的,不知道为啥

shibing624 commented 4 months ago

zero3需要把model权重offload到本地,效率低(速度慢),可以先试试用7b的模型跑小样本测试下。