作者您好，请教问题：tokenizer词表大小和模型embedding层对应不上

clue-ai / ChatYuan

ChatYuan: Large Language Model for Dialogue in Chinese and English

https://www.clueai.cn

Other

1.9k stars 183 forks source link

作者您好，请教问题：tokenizer词表大小和模型embedding层对应不上 #39

Open zhangzai666 opened 1 year ago

zhangzai666 commented 1 year ago

作者您好，感谢您分享模型。之前问过您问题如何预训练。我发现加载模型后embedding层大小是31128但是加载tokenzier分词器词表大小32228.原因就是多了预训练需要的extra_0到extra_100.而这是预训练所需要的。所以如何基于您分享这个embedding的32128的模型预训练。 tokenizer的 model的

joytianya commented 1 year ago

已经修复，可以重新加载下

zhangzai666 commented 1 year ago

已经修复，可以重新加载下

您好，感谢您的回复。刚才试了加载chatyuanV2。您是加载词表吧extra_id的数量设置为0了，所以tokinzer的vocab_size减少了100.但是T5模型预训练期间需要extra_0到extra_100把。不应该是把模型的embdding层的维度增加为32228来适应extra_0到extra_100这100个mask词么