alibaba / Pai-Megatron-Patch

The official repo of Pai-Megatron-Patch for LLM & VLM large scale training developed by Alibaba Cloud.
Apache License 2.0
723 stars 103 forks source link

最新的commit bf582d8f30d8ffbba51db3dcda984c9f0261d57d 有num_seq None的问题 #374

Closed WuNein closed 2 weeks ago

WuNein commented 2 weeks ago
3f5cce46c9a6c26262516afd3152322

我脚本已经加入了这个选项

46cc3b4b71aa777765a9f0d30668822

但是num_seq显示None训练出错,这个就是最新更改的代码导致的。

老的commit没有任何问题。 image

训练环境是8卡H100,使用提供的镜像和FA3+FP8

WuNein commented 2 weeks ago

我训练使用了pretrain + mmap https://github.com/alibaba/Pai-Megatron-Patch/blob/bf582d8f30d8ffbba51db3dcda984c9f0261d57d/examples/qwen2/pretrain_qwen.py#L115

我认为是这个也需要num_seq否者预训练没法做了

WuNein commented 2 weeks ago

问一下CPT阶段是否能提供序列拼接~

zheng-kuaishou commented 2 weeks ago

遇到同样的问题

lostkevin commented 2 weeks ago

预训练应该没有序列拼接的概念,可以先看一下binmap数据是怎么构造的

WuNein commented 2 weeks ago

预训练应该没有序列拼接的概念,可以先看一下binmap数据是怎么构造的

关键是现在正常的预训练就跑不通,会碰到nun seq问题

lostkevin commented 2 weeks ago

我这没有遇到这个问题,麻烦提供一下复现过程,谢谢~