Open echo-valor opened 3 weeks ago
使用一台8卡的A100和一台8卡的H800进行训练,hetero=pipline-stages为1 16 1 16,tp=2,pp=2,报如下错误:
环境肯定是没问题的,从0开始训练时可以跑通,求助是否因为异构参数设置影响?感谢
@heavyrain-lzy 请帮忙看看 @echo-valor 的问题哈。
使用一台8卡的A100和一台8卡的H800进行训练,hetero=pipline-stages为1 16 1 16,tp=2,pp=2,报如下错误: 环境肯定是没问题的,从0开始训练时可以跑通,求助是否因为异构参数设置影响?感谢
能否给出具体使用的FlagScale版本和关于NCCL相关的配置。
使用一台8卡的A100和一台8卡的H800进行训练,hetero=pipline-stages为1 16 1 16,tp=2,pp=2,报如下错误:
环境肯定是没问题的,从0开始训练时可以跑通,求助是否因为异构参数设置影响?感谢