可以提供一个训练好的模型吗？

DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库；24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.

MIT License

2.42k stars 296 forks source link

可以提供一个训练好的模型吗？ #20

Open PeterouZh opened 12 months ago

PeterouZh commented 12 months ago

您好，感谢您的工作，可以提供一个训练好的模型吗，方便大家玩耍。

DLLXW commented 12 months ago

您好，感谢您的工作，可以提供一个训练好的模型吗，方便大家玩耍。

我这边因为算力的原因，出来的模型是很挫的哈哈哈，我只是把流程走通了，初步验证了下是可行的，当作一个学习项目发出来给大家自由探索的，要可玩的话，肯定还是要把模型做到百M级，数据也要多来点。

diorw commented 12 months ago

请问显存大概需要多少,3090占满了嘛

PeterouZh commented 12 months ago

您好，感谢您的工作，可以提供一个训练好的模型吗，方便大家玩耍。

我这边因为算力的原因，出来的模型是很挫的哈哈哈，我只是把流程走通了，初步验证了下是可行的，当作一个学习项目发出来给大家自由探索的，要可玩的话，肯定还是要把模型做到百M级，数据也要多来点。

挫没关系哈，我是个人爱好者，机器放在家里，不想自己重新训练，要交电费 :-)

Vincent-ZHQ commented 11 months ago

按作者的setting，pretrain，batch32，用flash attention大概32G，不用大概36G, SFT作者给的batch32，显存报错，后来调成16就没问题了，所以batch32对应的显存应该是超过40G的，我用的A100-40G

AI-Study-Han commented 9 months ago

您好，感谢您的工作，可以提供一个训练好的模型吗，方便大家玩耍。

我这边因为算力的原因，出来的模型是很挫的哈哈哈，我只是把流程走通了，初步验证了下是可行的，当作一个学习项目发出来给大家自由探索的，要可玩的话，肯定还是要把模型做到百M级，数据也要多来点。

挫没关系哈，我是个人爱好者，机器放在家里，不想自己重新训练，要交电费 :-)

(这里提供了一个训练好的)[https://github.com/AI-Study-Han/Mini-Llama2-Chinese]