linxkon / Waline

0 stars 0 forks source link

大模型训练Guidelines - AI·你所爱 #16

Open linxkon opened 1 month ago

linxkon commented 1 month ago

https://linxkon.github.io/%E5%A6%82%E4%BD%95%E4%BB%8E%E9%9B%B6%E5%BC%80%E5%A7%8B%E8%AE%AD%E7%BB%83%E5%A4%A7%E6%A8%A1%E5%9E%8B.html#%E5%86%8D%E7%9C%8Bscaling-law

1 背景 根据scaling law,模型越大,高质量数据越多,效果越好。 但还有一个很直观的情况,随着预训练样本的质量不断提升,训练手段的优化。新的模型,往往效果能轻松反超参数量两倍于它的模型。 例如,最新出的minicpm,微信内部评测效果也是非常棒的。跟规模相对接近的2b、7b模型比,得分比qwen2b高,和qwen7b比有的高有的低。 这个是minicpm的详细技术文档。 [ht