Closed zachluo closed 1 year ago
您好,我看readme写着训练采用了tensor/pipeline-partition技术,但是实际代码是通过ds的offload来实现降显存,请问这一块TP/PP的训练代码是没有公布吗?
多谢关注。tp/pp是我们内部代码,主要用于几百张卡,千亿量级模型训练的。我们觉得大部分用户可能不需要,在小数量为调中,公开的ds代码同样表现不错。如有大集群训练的需求,可以联系我们,我们愿意合作支持。
好的,谢谢
您好,我看readme写着训练采用了tensor/pipeline-partition技术,但是实际代码是通过ds的offload来实现降显存,请问这一块TP/PP的训练代码是没有公布吗?