Open JinXiaozhao opened 3 months ago
请问为何采用pp不均匀切分的并行策略?对训练性能是否有提升?对训练性能提升有多大?
不均匀切分主要是为了解决相同流水并行路数下可以训练更大的模型,更加充分的利用GPU的显存。理论上对训练性能没有提升。
请问为何采用pp不均匀切分的并行策略?对训练性能是否有提升?对训练性能提升有多大?