DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.42k stars 296 forks source link

您好,请问显存为24G 3090预训练这个参数量大小的模型大概需要多久呀? #21

Open LePanda026 opened 12 months ago

LePanda026 commented 12 months ago

追加提问,请问您训练用到了几张3090呀

DLLXW commented 12 months ago

No description provided.

我就一张。50M参数的训练2天吧。但是如果你要得到一个可玩的模型,估计还是要多训练点数据,一张卡训练的话训练100亿token怎么也得需要一周时间了。建议多搞点卡来玩

LePanda026 commented 12 months ago

好滴,谢谢~