本项目致力于整理math word problem (MWP) 领域的数据集、论文、工具等信息。
现有工作的复现详见codes文件夹,其中preprocess_data文件夹放置对数据集的预处理代码,在每个文件的开头位置存放数据集的原始下载位置、引用论文和预处理的逻辑;results文件夹是对公开数据集使用不同算法得到的结果。代码的运行命令可参考codes/README.md。
由于数据集可能很大,所以我没有上传到GitHub,但是我会在数据预处理的代码里面介绍数据集的原始下载地址。
以下内容首先介绍MWP任务上不同方法的实验结果,然后介绍MWP任务的数据集,接着介绍MWP任务的论文,最后介绍MWP任务的工具。
由于本项目原来想囊括所有数值推理领域的工作,现在决定专注于MWP任务,所以现在在更改项目的结构,以下内容改完后将删除本段。
[TOC]
QA格式MWP任务(仅考虑输出一个数值答案的数学题。其他实验setting见表后)的准确率指标(相当于只计算test@1。其他指标不管了): 有些数据集有独特的标注信息(比如公式,推理过程,calculator),如果考虑到这种情况的话我会写明,没写就是没有。 解码超参数等没有专门做过优化。 结果可能具有高随机性。代码可能有bug,我修改bug后会随时更新最新结果。 |
方法名 | Alg514 | AI2 | Dolphin1878 | Math23K | ASDiv | Ape210K | GSM8K | SVAMP |
---|---|---|---|---|---|---|---|---|---|
GPT-2 | 0 | ||||||||
GPT-2 finetune① | 0 | 0.14% | 1.06%③ | ||||||
GPT-2 finetune① + calculator② | - | - | - | - | - | - | 1.13% | - | |
GPT-2 verifier①② | - | - | - | - | - | - | 0.91% | ||
GPT-3.5-Turbo | 82.86% | 93.15% | 66.67% | 60.3% | 86.19% | 46.94% | 78.92% | 79.78% | |
GPT-3.5-Turbo CoT | 85.71% | ||||||||
GPT-3.5-Turbo CoT+tip | 80% | ||||||||
GPT-3.5-Turbo CoT+SC | |||||||||
GPT-3.5-Turbo PRP | 94.29% | ||||||||
ChatGLM3-6B | 65.71% | ||||||||
GLM-4 | 77.14% | ||||||||
Yi-large | 94.29% | ||||||||
DeepSeek-V2 | 91.43% | ||||||||
Moonshot | 88.57% | ||||||||
LLaMA3-8B-Instruct | 65.71% | ||||||||
CPM-2 prompt-based finetune |
① 将数据集自带的公式/推理过程/计算器信息添加到生成标签中辅助模型训练。具体用的哪个可以看get_data.py里的answer_with_reasoning键的设置
② 用了GSM8K数据集自带的计算器信息来辅助推理
③ 试来试去发现decode时带sample(max_new_tokens=50,do_sample=True,top_k=50,top_p=0.95)的效果最好(2.4%),但是反正大家理解这是怎么个事就行,无所谓了
因为下载地址太占位置了,所以不在这里列出,但是在数据预处理代码文件里面会有。
尽量按时间顺序排列。有些我不确定先后顺序,所以可能有错误。
数据集名称 | 语言 | 出处 | 样本量 | 无法下载的原因和其他备注 |
---|---|---|---|---|
Dolphin18K | 英语 | (2016 ACL) How well do Computers Solve Math Word Problems? Large-Scale Dataset Construction and Evaluation | 18460 | 需要通过URL从雅虎问答下载数据,但是雅虎问答已经倒闭了。没有找到直接下载数据集的来源。有的话请跟我说一声。 |
MAWPS | 英语 | (2016 NAACL) MAWPS: A Math Word Problem Repository | 100K | 我服务器没下Maven,下次有机会再下数据吧 |
SuperCLUE-Math6 | 中文 | (2024) SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in Chinese | 需要申请,懒得搞 |
2022年
2021年
2020年
2019年
2018年
2017年
2016年
2015年
2014年
2011年
2009年
1963年
[^1]: 论文笔记 | MathDQN: Solving Arithmetric Word Problems via Deep Reinforcement Learning_ttliu_kiwi的博客-CSDN博客 【AAAI Oral】利用DeepMind的DQN解数学应用题,准确率提升15% - 知乎 mathdqn代码记录_ttliu_kiwi的博客-CSDN博客