issues
search
DLLXW
/
baby-llama2-chinese
用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.34k
stars
288
forks
source link
预训练模型参数和eval参数维度不匹配的问题
#68
Open
1019245175
opened
2 months ago
1019245175
commented
2 months ago
将eval_pretrain.py的第38行代码max_seq_len = 1024改为max_seq_len = 512即可
将eval_pretrain.py的第38行代码max_seq_len = 1024改为max_seq_len = 512即可