TigerResearch / TigerBot

TigerBot: A multi-language multi-task LLM
https://www.tigerbot.com
Apache License 2.0
2.24k stars 194 forks source link

tokenizer的词表大小与模型输入维度不一致? #85

Closed jiejie1993 closed 1 year ago

jiejie1993 commented 1 year ago

13B-v1-base的模型tokenizer的词表大小是60515,模型的输入词表对应的维度是60928,如何配置成一致的?

chentigerye commented 1 year ago

这是为了训练时模型分片方便make vocab size divisible by 64. 在模型config.json里"vocab_size": 60928。所以infer_pretrain可以直接load model,infer没有问题。如果是继续训练或者sft,不清楚代码怎么去model vocab size的时候(config或是tokenizer),可以在trainer init前加上这两句: model.vocab_size = 60928 model.config.vocab_size = 60928