DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.42k stars 296 forks source link

可以提供一个训练好的模型吗? #20

Open PeterouZh opened 12 months ago

PeterouZh commented 12 months ago

您好,感谢您的工作,可以提供一个训练好的模型吗,方便大家玩耍。

DLLXW commented 12 months ago

您好,感谢您的工作,可以提供一个训练好的模型吗,方便大家玩耍。

我这边因为算力的原因,出来的模型是很挫的哈哈哈,我只是把流程走通了,初步验证了下是可行的,当作一个学习项目发出来给大家自由探索的,要可玩的话,肯定还是要把模型做到百M级,数据也要多来点。

diorw commented 12 months ago

请问显存大概需要多少,3090占满了嘛

PeterouZh commented 12 months ago

您好,感谢您的工作,可以提供一个训练好的模型吗,方便大家玩耍。

我这边因为算力的原因,出来的模型是很挫的哈哈哈,我只是把流程走通了,初步验证了下是可行的,当作一个学习项目发出来给大家自由探索的,要可玩的话,肯定还是要把模型做到百M级,数据也要多来点。

挫没关系哈,我是个人爱好者,机器放在家里,不想自己重新训练,要交电费 :-)

Vincent-ZHQ commented 11 months ago

按作者的setting,pretrain,batch32,用flash attention大概32G,不用大概36G, SFT作者给的batch32,显存报错,后来调成16就没问题了,所以batch32对应的显存应该是超过40G的,我用的A100-40G

AI-Study-Han commented 9 months ago

您好,感谢您的工作,可以提供一个训练好的模型吗,方便大家玩耍。

我这边因为算力的原因,出来的模型是很挫的哈哈哈,我只是把流程走通了,初步验证了下是可行的,当作一个学习项目发出来给大家自由探索的,要可玩的话,肯定还是要把模型做到百M级,数据也要多来点。

挫没关系哈,我是个人爱好者,机器放在家里,不想自己重新训练,要交电费 :-)

(这里提供了一个训练好的)[https://github.com/AI-Study-Han/Mini-Llama2-Chinese]