Closed shamanez closed 3 months ago
我尝试使用Llama 3的HF到Megatron的转换器时,注意到文档中使用的是一个相当旧版本的Megatron。过去几个月,Megatron已经快速改进。是否有可能添加新的Megatron版本?或者它是否可以直接与密集模型一起工作?也许我们需要更改一些层的名称。
您好,是一定要使用hf2megatron吗?试试hf2mcore呢?那个流程的MegatronLM版本是最新的。hf2megatron的版本确实有点老
我尝试使用Llama 3的HF到Megatron的转换器时,注意到文档中使用的是一个相当旧版本的Megatron。过去几个月,Megatron已经快速改进。是否有可能添加新的Megatron版本?或者它是否可以直接与密集模型一起工作?也许我们需要更改一些层的名称。