预训练模型参数和eval参数维度不匹配的问题

DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库；24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.

MIT License

2.34k stars 288 forks source link

Open 1019245175 opened 2 months ago

1019245175 commented 2 months ago

将eval_pretrain.py的第38行代码max_seq_len = 1024改为max_seq_len = 512即可