Closed jiejie1993 closed 1 year ago
这是为了训练时模型分片方便make vocab size divisible by 64. 在模型config.json里"vocab_size": 60928。所以infer_pretrain可以直接load model,infer没有问题。如果是继续训练或者sft,不清楚代码怎么去model vocab size的时候(config或是tokenizer),可以在trainer init前加上这两句: model.vocab_size = 60928 model.config.vocab_size = 60928
13B-v1-base的模型tokenizer的词表大小是60515,模型的输入词表对应的维度是60928,如何配置成一致的?