最新的commit bf582d8f30d8ffbba51db3dcda984c9f0261d57d 有num_seq None的问题

alibaba / Pai-Megatron-Patch

The official repo of Pai-Megatron-Patch for LLM & VLM large scale training developed by Alibaba Cloud.

Apache License 2.0

723 stars 103 forks source link

Closed WuNein closed 2 weeks ago

WuNein commented 2 weeks ago

我脚本已经加入了这个选项

但是num_seq显示None训练出错，这个就是最新更改的代码导致的。

老的commit没有任何问题。

训练环境是8卡H100，使用提供的镜像和FA3+FP8

WuNein commented 2 weeks ago

我认为是这个也需要num_seq否者预训练没法做了

WuNein commented 2 weeks ago

问一下CPT阶段是否能提供序列拼接~

zheng-kuaishou commented 2 weeks ago

遇到同样的问题

lostkevin commented 2 weeks ago

预训练应该没有序列拼接的概念，可以先看一下binmap数据是怎么构造的

WuNein commented 2 weeks ago

预训练应该没有序列拼接的概念，可以先看一下binmap数据是怎么构造的

关键是现在正常的预训练就跑不通，会碰到nun seq问题

lostkevin commented 2 weeks ago

我这没有遇到这个问题，麻烦提供一下复现过程，谢谢~