FlagOpen / FlagScale

FlagScale is a large model toolkit based on open-sourced projects.
Other
132 stars 40 forks source link

异构训练报NCCL错误 #201

Open echo-valor opened 3 weeks ago

echo-valor commented 3 weeks ago

image

使用一台8卡的A100和一台8卡的H800进行训练,hetero=pipline-stages为1 16 1 16,tp=2,pp=2,报如下错误:

image

环境肯定是没问题的,从0开始训练时可以跑通,求助是否因为异构参数设置影响?感谢

aoyulong commented 3 weeks ago

@heavyrain-lzy 请帮忙看看 @echo-valor 的问题哈。

aoyulong commented 3 weeks ago

image

使用一台8卡的A100和一台8卡的H800进行训练,hetero=pipline-stages为1 16 1 16,tp=2,pp=2,报如下错误:

image

环境肯定是没问题的,从0开始训练时可以跑通,求助是否因为异构参数设置影响?感谢

能否给出具体使用的FlagScale版本和关于NCCL相关的配置。