大模型训练Guidelines - AI·你所爱

https://linxkon.github.io/%E5%A6%82%E4%BD%95%E4%BB%8E%E9%9B%B6%E5%BC%80%E5%A7%8B%E8%AE%AD%E7%BB%83%E5%A4%A7%E6%A8%A1%E5%9E%8B.html#%E5%86%8D%E7%9C%8Bscaling-law

1 背景根据scaling law，模型越大，高质量数据越多，效果越好。但还有一个很直观的情况，随着预训练样本的质量不断提升，训练手段的优化。新的模型，往往效果能轻松反超参数量两倍于它的模型。例如，最新出的minicpm，微信内部评测效果也是非常棒的。跟规模相对接近的2b、7b模型比，得分比qwen2b高，和qwen7b比有的高有的低。这个是minicpm的详细技术文档。 [ht

linxkon / Waline

大模型训练Guidelines - AI·你所爱 #16