shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型,实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。
Apache License 2.0
2.94k stars 452 forks source link

请问,pt阶段,基础模型比较大(Yi-67B),多机多卡用那种训练比较好呢? #315

Open listwebit opened 5 months ago

listwebit commented 5 months ago

Describe the Question

1.请问,pt阶段,基础模型比较大(Yi-67B),多机多卡用那种训练比较好呢? 代码是否支持呢 2.是否支持deepspeed 的 zero-1模式呢,怎么改呢,我看只支持zero2和zero3呢 3.长文本训练就设置--group_by_text True,多长算长呢?这种情况下block_size 还起作用吗 4.block_size 的作用是做什么呢?

期待大佬的回复!万分感谢!

shibing624 commented 5 months ago

1.支持,torchrun 2.支持,看wiki

  1. 大于1024的
  2. 截断。