DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.34k stars 288 forks source link

Attention!! 推理代码里面的致命笔误是导致大家看到效果不好的原因。望周知! #50

Closed DLLXW closed 3 months ago

DLLXW commented 6 months ago

eval.py代码里面,本人当时提交的版本中,手误把写成了,导致大家看到的推理效果很差。这是一个致命错误,几个月了,今天才发现,望看issue区很多同学说效果不好,我一直以为是大家训练没到位的原因,但是其实是推理代码有个笔误bug。大家更正下就能看到惊艳的结果了。

 x=tokenizer.encode(prompt,add_special_tokens=False)+[tokenizer.special_tokens['<bos>']] #更正后的代码。

当然,我相信稍微会思考的同学应该早就发现了这个问题。但是一些小白可能是很难发现呢。