DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.42k stars 296 forks source link

运行预训练报错 #4

Closed 1633232731 closed 1 year ago

1633232731 commented 1 year ago

运行 pretrain.py 的时候报错

怀疑是机器没有环境变量

在pretrain.py 的212-217行

作者可以补充一下环境变量嘛

多谢

1633232731 commented 1 year ago

运行时需要使用torchrun就ok了

新报错 显存不足

设备 3090 24G

1633232731 commented 1 year ago

使用作者提供的参数可以正确训练