Closed hzwer closed 9 months ago
非常感谢,我们已经在2.1中讨论了如何去掉污染的数据集,而且使用了一个相当严格的方法防止数据泄漏。
主要是关注 sft 数据集的泄露,2.1 似乎是关于预训练的 提醒:MathInstruct 包含有大量的测试集泄露
你好,我们在预训练已经警惕了数据泄露~ 在SFT阶段,为了和其他模型对比公平,以及复现的难易程度,我们竭尽所能的用了公开数据集,并且避免了MetaMath此类evol的数据集去fit test domain。
我们内部也评测过很多最新的Math测试集合,在单轮状态下,数学能力非常好。如果感兴趣,你也可以测一下你们的inhouse data。
咋说呢 mathinstruct v1/v2 都是泄露的 你们论文说是用了嘛 它是公开数据集不代表没问题呀
我很好奇为啥性能这么好,只有可能出现在数据上或者 GRPO上,数据上感觉和之前的办法都差不多,而且我很好奇数据上你们是如何只筛选出和完全和数学有关的部分的,这个事情用简单的fastText model应该做的不会特别准,就比如从html代码中拿主体部分的div这件事情也是不容易的
还有就是我很好奇对数学推理这个问题做GRPO是如何实现的,这听起来像天方夜谭
还有就是我很好奇对数学推理这个问题做GRPO是如何实现的,这听起来像天方夜谭
https://arxiv.org/abs/2312.08935 可以看看这个,其实用不用GRPO,哪怕标准的RL,都可以涨~ 换成Mistral系列模型也可以涨
只用n-gram检查有时候很难避免
有的时候题目经过各种rephrase或者latex/markdown的转换还是会重复 并不是说deepseek-math contaimnate了,只是说这种情况非常难检查 llemma、metamath训练数据应该或多或少是都有一些泄露的
咋说呢 mathinstruct v1/v2 都是泄露的 你们论文说是用了嘛 它是公开数据集不代表没问题呀
如论文所述,我们用的是MathInstruct的子集。把MathInstruct都去掉以后做sft,MATH依然是46+
如论文所述,我们用的是MathInstruct的子集。把MathInstruct都去掉以后做sft,MATH依然是46+
想问一下这个46+是DeepSeekMath-Instruct Tool-Integrated Reasoning 还是 Chain-of-Thought Reasoning呀?
如论文所述,我们用的是MathInstruct的子集。把MathInstruct都去掉以后做sft,MATH依然是46+
想问一下这个46+是DeepSeekMath-Instruct Tool-Integrated Reasoning 还是 Chain-of-Thought Reasoning呀?
COT
Kaggle AIMO 比赛大家都用的是 DeepSeekMath 的模型,发现效果很好。我想这可以作为泛化性而非过拟合的侧面验证。
@soloice 近期了解到 DeepSeekMath 效果确实不错 GSM8K 我相信可以做到这个效果,Math 我仍然持观望态度
忍不住评论一句,最近Qwen2-math更夸张
个人友情提醒,小模型 MATH 达到这个水平,要警惕数据泄露 可以对比 MATH 和 humaneval 数据集,感受一下难度 😂