Closed GUORUIWANG closed 1 year ago
请问是什么原因呢
重新提问,你这说的是什么东西
你好,不好意思刚刚表述有些问题,我重新描述一下: 同样设置:3w数据,1个epoch 2个卡,ptv2方式train,per_device_train_batch_size 1, gradient_accumulation_steps 16 在以下方式中迭代数不一样 1)模型并行: steps 1875 2)非模型并行:steps 938 请问 模型并行为啥数据没有并行?
请问是什么原因呢