alibaba / Pai-Megatron-Patch

The official repo of Pai-Megatron-Patch for LLM & VLM large scale training developed by Alibaba Cloud.
Apache License 2.0
674 stars 94 forks source link

QwenTokenizer与Qwen2Tokenizer #295

Open sexan opened 2 months ago

sexan commented 2 months ago

您好,感谢提供pai-megatron框架,关于qwen分词器,我有下面几点疑问,还望解答,谢谢! 1)请问qwen系列模型(qwen、qwen1.5、qwen2)的词表和分词方式一直都是一样的吗? 2)如果是一样的,为什么会有两个分词器:QwenTokenizer、Qwen2Tokenizer? 3)如果我想用qwen1.5模型,该选择哪个分词器? image

divisionblur commented 2 months ago

您好,感谢提供pai-megatron框架,关于qwen分词器,我有下面几点疑问,还望解答,谢谢! 1)请问qwen系列模型(qwen、qwen1.5、qwen2)的词表和分词方式一直都是一样的吗? 2)如果是一样的,为什么会有两个分词器:QwenTokenizer、Qwen2Tokenizer? 3)如果我想用qwen1.5模型,该选择哪个分词器? image

Qwen2Tokenizer看起来是适配了megatron-core的,继承了MegatronTokenizer。

sexan commented 2 months ago

您好,感谢提供pai-megatron框架,关于qwen分词器,我有下面几点疑问,还望解答,谢谢! 1)请问qwen系列模型(qwen、qwen1.5、qwen2)的词表和分词方式一直都是一样的吗? 2)如果是一样的,为什么会有两个分词器:QwenTokenizer、Qwen2Tokenizer? 3)如果我想用qwen1.5模型,该选择哪个分词器? image

Qwen2Tokenizer看起来是适配了megatron-core的,继承了MegatronTokenizer。

这个继承是必须的吗,QwenTokenizer都没继承,为什么Qwen2Tokenizer开始继承了

KKCDD commented 1 month ago

在examples/qwen1_5的训练脚本里有,除了run_pretrain_megatron_qwen.sh里面用的llama_tokenizer,其他都用的qwen2tokenizer。 从hf的代码上来看,llama tokenizer和qwen2tokenizer一样,但是pai里面的qwen2tokenizer实现继承了megatron-core做了适配。 qwen用的tiktoken方式,词表也不一样,现在应该都是用qwen2tokenizer了。 image