请问，pt阶段，基础模型比较大(Yi-67B)，多机多卡用那种训练比较好呢？

shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。

Apache License 2.0

2.94k stars 452 forks source link

请问，pt阶段，基础模型比较大(Yi-67B)，多机多卡用那种训练比较好呢？ #315

Open listwebit opened 5 months ago

listwebit commented 5 months ago

Describe the Question

1.请问，pt阶段，基础模型比较大(Yi-67B)，多机多卡用那种训练比较好呢？代码是否支持呢 2.是否支持deepspeed 的 zero-1模式呢，怎么改呢，我看只支持zero2和zero3呢 3.长文本训练就设置--group_by_text True，多长算长呢？这种情况下block_size 还起作用吗 4.block_size 的作用是做什么呢？

期待大佬的回复！万分感谢！

shibing624 commented 5 months ago

1.支持，torchrun 2.支持，看wiki

大于1024的
截断。