关于SFT不同DP训练的loss对不上的问题

alibaba / Pai-Megatron-Patch

The official repo of Pai-Megatron-Patch for LLM & VLM large scale training developed by Alibaba Cloud.

Apache License 2.0

723 stars 103 forks source link

使用deepseek 进行sft模式的训练，分别使用8卡和16卡进行训练，会出现第一个iter的loss对不上的情况，都是tp1，pp1的切分方式；

进一步分析发现第一个microbatch的loss能够对上，后面的就对不上了，第一个iterloss如图所示：

gbs设为32，mbs设为1，8卡的时候每张卡跑4个microbatch，16卡每张卡跑2个microbatch，表颜色的数据是能够对的上的loss，其他的对不上，sft的代码存在问题吗，还是本身就该是这样？

alibaba / Pai-Megatron-Patch