Open ezioliao opened 1 year ago
我看代码貌似是这样
我看代码是没有对layer内部做矩阵拆分来进行乘法的,所以是不是现在还不支持张量并行了?
ds的pipeline engine内部有对activation和gradient做partition,但并行化程度应该是比不上megatron的
我看代码貌似是这样