DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.34k stars 288 forks source link

模型参数量计算 #44

Open zxx20231119 opened 8 months ago

zxx20231119 commented 8 months ago

max_seq_len = 512 dim = 512 n_layers = 8 n_heads = 8

改变值后,如何计算最终的参数量,有公式吗?

zerozhoujie commented 6 months ago

在model.py文件的268行可以打印一下模型都有哪些层,以及每一层的参数量

zxx20231119 commented 5 months ago

好的,谢谢