DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.34k stars 288 forks source link

提示:在训练中加入complie = True后再sft中也需要同步,不然会造成模型载入错误 #51

Closed Hong-Shuo closed 6 months ago

Hong-Shuo commented 6 months ago

我在使用sft.py后遇到了pytorch.load()提示key对应不上的问题,后来经过排查,确定是在预训练选项中设置complie = True但sft中没设置导致。这里分享出这种情况,希望能对后面使用项目的人有一点帮助。