TigerResearch / TigerBot

TigerBot: A multi-language multi-task LLM
https://www.tigerbot.com
Apache License 2.0
2.24k stars 194 forks source link

使用本项目默认的deepspeed配置训练时,模型参数初始化失败,未能从checkpoint初始化 #119

Closed tiandiweizun closed 1 year ago

tiandiweizun commented 1 year ago

软件或包版本号: transformers 4.33.1 python 3.11.4 deepspeed 0.10.3 torch 2.0.1

当开启zero stage3时,使用train_clm.py出现checkpoint内部定义的张量大小和模型不一致。但是zero stage2正常。以下为错误信息截图。 image

chentigerye commented 1 year ago

看你log, checkpoint是llama-2-7b-chat-hf,是改了名字吗?tigerbot模型不叫这个。 如果checkpoint设的是tigerbot-7b-chat (V3),还报错的话,可以在代码的trainer前加上下面两句再试试:

model.vocab_size = 60928 model.config.vocab_size = 60928