Closed tiandiweizun closed 1 year ago
软件或包版本号: transformers 4.33.1 python 3.11.4 deepspeed 0.10.3 torch 2.0.1
当开启zero stage3时,使用train_clm.py出现checkpoint内部定义的张量大小和模型不一致。但是zero stage2正常。以下为错误信息截图。
看你log, checkpoint是llama-2-7b-chat-hf,是改了名字吗?tigerbot模型不叫这个。 如果checkpoint设的是tigerbot-7b-chat (V3),还报错的话,可以在代码的trainer前加上下面两句再试试:
model.vocab_size = 60928 model.config.vocab_size = 60928
软件或包版本号: transformers 4.33.1 python 3.11.4 deepspeed 0.10.3 torch 2.0.1
当开启zero stage3时,使用train_clm.py出现checkpoint内部定义的张量大小和模型不一致。但是zero stage2正常。以下为错误信息截图。