Open listwebit opened 5 months ago
1.请问,pt阶段,基础模型比较大(Yi-67B),多机多卡用那种训练比较好呢? 代码是否支持呢 2.是否支持deepspeed 的 zero-1模式呢,怎么改呢,我看只支持zero2和zero3呢 3.长文本训练就设置--group_by_text True,多长算长呢?这种情况下block_size 还起作用吗 4.block_size 的作用是做什么呢?
期待大佬的回复!万分感谢!
1.支持,torchrun 2.支持,看wiki
Describe the Question
1.请问,pt阶段,基础模型比较大(Yi-67B),多机多卡用那种训练比较好呢? 代码是否支持呢 2.是否支持deepspeed 的 zero-1模式呢,怎么改呢,我看只支持zero2和zero3呢 3.长文本训练就设置--group_by_text True,多长算长呢?这种情况下block_size 还起作用吗 4.block_size 的作用是做什么呢?
期待大佬的回复!万分感谢!