alibaba / Pai-Megatron-Patch

The official repo of Pai-Megatron-Patch for LLM & VLM large scale training developed by Alibaba Cloud.
Apache License 2.0
674 stars 94 forks source link

使用最新的Megatron代码进行Llama 3检查点转换 #233

Closed shamanez closed 3 months ago

shamanez commented 4 months ago

我尝试使用Llama 3的HF到Megatron的转换器时,注意到文档中使用的是一个相当旧版本的Megatron。过去几个月,Megatron已经快速改进。是否有可能添加新的Megatron版本?或者它是否可以直接与密集模型一起工作?也许我们需要更改一些层的名称。

jerryli1981 commented 4 months ago

您好,是一定要使用hf2megatron吗?试试hf2mcore呢?那个流程的MegatronLM版本是最新的。hf2megatron的版本确实有点老