deepseek-ai / DeepSeek-Math

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
MIT License
821 stars 51 forks source link

Paper 第二节预训练 2.2 节:为什么对不同 size 的数据集都要训练至高达 150B tokens? #24

Open yucc-leon opened 5 months ago

yucc-leon commented 5 months ago
image

Math 模型使用的数据集大小为 120B tokens 所对比的数据集分别为

想请教下实验中这样的设定是基于什么考虑