IEIT-Yuan / Yuan-2.0

Yuan 2.0 Large Language Model
Other
681 stars 85 forks source link

PP不均匀切分 #148

Open JinXiaozhao opened 3 months ago

JinXiaozhao commented 3 months ago

请问为何采用pp不均匀切分的并行策略?对训练性能是否有提升?对训练性能提升有多大?

zhaoxudong01 commented 3 months ago

不均匀切分主要是为了解决相同流水并行路数下可以训练更大的模型,更加充分的利用GPU的显存。理论上对训练性能没有提升。