tokenizer的词表大小与模型输入维度不一致？

TigerResearch / TigerBot

TigerBot: A multi-language multi-task LLM

https://www.tigerbot.com

Apache License 2.0

2.24k stars 194 forks source link

tokenizer的词表大小与模型输入维度不一致？ #85

Closed jiejie1993 closed 1 year ago

jiejie1993 commented 1 year ago

13B-v1-base的模型tokenizer的词表大小是60515，模型的输入词表对应的维度是60928，如何配置成一致的？

chentigerye commented 1 year ago

这是为了训练时模型分片方便make vocab size divisible by 64. 在模型config.json里"vocab_size": 60928。所以infer_pretrain可以直接load model，infer没有问题。如果是继续训练或者sft，不清楚代码怎么去model vocab size的时候（config或是tokenizer），可以在trainer init前加上这两句： model.vocab_size = 60928 model.config.vocab_size = 60928