Closed Jayce1kk closed 1 month ago
按照Megatron-LM-Dense框架(不是mcore)readme的流程,对llama3进行hf2megatron转换,tp开4pp开2,然后进行多机器训练时(2台4090),当seq_len开1024以上时,loss不正常为5~6;但是开1024时loss为2.1正常。想请教一下为什么
同问
我通过换mcore框架解决,不过mcore模型转换好像不支持pp并行?
您好,megatron的已修复,烦请CR:https://github.com/alibaba/Pai-Megatron-Patch/pull/317
按照Megatron-LM-Dense框架(不是mcore)readme的流程,对llama3进行hf2megatron转换,tp开4pp开2,然后进行多机器训练时(2台4090),当seq_len开1024以上时,loss不正常为5~6;但是开1024时loss为2.1正常。想请教一下为什么