math-eval / MathEval

MathEval is a benchmark dedicated to the holistic evaluation on mathematical capacities of LLMs.
https://matheval.ai
53 stars 3 forks source link

Math23k 数据集用来评测的测试集是否加入了部分训练集的数据? #6

Open CccZss opened 1 month ago

CccZss commented 1 month ago

对比的 math23k 数据集来源:https://paperswithcode.com/dataset/math23k

上面测试集的测试集只有 1000 条,MathEval 提供的 math23k 测试集有 2317 条,并且对多出来的数据抽样发现是在上面数据集的训练集里的

请问 MathEval 提供的 math23k 评测数据是否使用了训练集的数据?

TjoyLiu commented 1 month ago

对比的 math23k 数据集来源:https://paperswithcode.com/dataset/math23k

上面测试集的测试集只有 1000 条,MathEval 提供的 math23k 测试集有 2317 条,并且对多出来的数据抽样发现是在上面数据集的训练集里的

请问 MathEval 提供的 math23k 评测数据是否使用了训练集的数据?

Hi 感谢关注我们的榜单,关于math23k,我们使用的是从这个repo下面获得的数据: https://github.com/LYH-YF/MWPToolkit/tree/master/dataset/math23k

使用了它的测试集,是2317道题

https://ai.tencent.com/ailab/nlp/dialogue/#datasets这份数据集应该是更加权威的版本,感谢你的指正,我们会尽快更新到这一份的结果