math-eval / MathEval

MathEval is a benchmark dedicated to the holistic evaluation on mathematical capacities of LLMs.
https://matheval.ai
65 stars 5 forks source link

关于测评如何得到最终分数的问题 #4

Open zyh3826 opened 11 months ago

zyh3826 commented 11 months ago

您好,我在使用MathEval本地测评的时候遇到了问题,我的理解 MathEval的运行过程是:

  1. 下载数据集
  2. 构造合适的格式
  3. 生成shell文件进行推理
  4. 使用GPT4 extraction(可有可无)
  5. 使用GPT4 verification(如果不进行第三步可以用Opencompass的regex结果),这里得把问题送给GPT4进行验证,得到验证结果写入文件 我的疑问是如果我说的流程是对的,怎么得到最终分数,文件里只有GPT4的response,怎么汇总,目前看代码是没有相关函数的,是我漏掉了什么吗 希望您能解答,谢谢 @TjoyLiu @zitaoliu
TjoyLiu commented 11 months ago

你的理解是很正确的,4和5我们建议如果有资源还是用GPT4来做,我们这边验证过opencompass的抽取和匹配在一些数据集上会有很大的问题。汇总分数的脚本我们还没有给出来,因为我们的榜单还差一点儿发布,当前的代码库也是未完成的,我们计划在发布的同时把代码库也一并发布出来,如果需要我可以提供一个临时的脚本给你用于跑分,但只适配我们GPT4的流程。如果你基于opencompass的话,我记得opencompass本身就可以直接输出分数。

On Tue, Dec 12, 2023 at 4:17 PM zyh3826 @.***> wrote:

您好,我在使用MathEval本地测评的时候遇到了问题,我的理解 MathEval的运行过程是:

  1. 下载数据集
  2. 构造合适的格式
  3. 生成shell文件进行推理
  4. 使用GPT4 extraction(可有可无)
  5. 使用GPT4 verification(如果不进行第三步可以用Opencompass的regex结果),这里得把问题送给GPT4进行验证,得到验证结果写入文件 我的疑问是如果我说的流程是对的,怎么得到最终分数,文件里只有GPT4的response,怎么汇总,目前看代码是没有相关函数的,是我漏掉了什么吗 希望您能解答,谢谢 @TjoyLiu https://github.com/TjoyLiu @zitaoliu https://github.com/zitaoliu

— Reply to this email directly, view it on GitHub https://github.com/math-eval/MathEval/issues/4, or unsubscribe https://github.com/notifications/unsubscribe-auth/ALHETY7INWQVLB7IRZL4433YJAHLDAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTOMRRG42DCNY . You are receiving this because you were mentioned.Message ID: @.***>

zyh3826 commented 11 months ago

你的理解是很正确的,4和5我们建议如果有资源还是用GPT4来做,我们这边验证过opencompass的抽取和匹配在一些数据集上会有很大的问题。汇总分数的脚本我们还没有给出来,因为我们的榜单还差一点儿发布,当前的代码库也是未完成的,我们计划在发布的同时把代码库也一并发布出来,如果需要我可以提供一个临时的脚本给你用于跑分,但只适配我们GPT4的流程。如果你基于opencompass的话,我记得opencompass本身就可以直接输出分数。 On Tue, Dec 12, 2023 at 4:17 PM zyh3826 @.> wrote: 您好,我在使用MathEval本地测评的时候遇到了问题,我的理解 MathEval的运行过程是: 1. 下载数据集 2. 构造合适的格式 3. 生成shell文件进行推理 4. 使用GPT4 extraction(可有可无) 5. 使用GPT4 verification(如果不进行第三步可以用Opencompass的regex结果),这里得把问题送给GPT4进行验证,得到验证结果写入文件 我的疑问是如果我说的流程是对的,怎么得到最终分数,文件里只有GPT4的response,怎么汇总,目前看代码是没有相关函数的,是我漏掉了什么吗 希望您能解答,谢谢 @TjoyLiu https://github.com/TjoyLiu @zitaoliu https://github.com/zitaoliu — Reply to this email directly, view it on GitHub <#4>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ALHETY7INWQVLB7IRZL4433YJAHLDAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTOMRRG42DCNY . You are receiving this because you were mentioned.Message ID: @.>

@TjoyLiu 谢谢您的回复,如果方便,可以发一下临时脚本

TjoyLiu commented 11 months ago

Hello 您先check一下这个临时的出分脚本哈

On Wed, Dec 13, 2023 at 10:50 AM zyh3826 @.***> wrote:

你的理解是很正确的,4和5我们建议如果有资源还是用GPT4来做,我们这边验证过opencompass的抽取和匹配在一些数据集上会有很大的问题。汇总分数的脚本我们还没有给出来,因为我们的榜单还差一点儿发布,当前的代码库也是未完成的,我们计划在发布的同时把代码库也一并发布出来,如果需要我可以提供一个临时的脚本给你用于跑分,但只适配我们GPT4的流程。如果你基于opencompass的话,我记得opencompass本身就可以直接输出分数。 … <#m-4625431551995882168> On Tue, Dec 12, 2023 at 4:17 PM zyh3826 @.> wrote: 您好,我在使用MathEval本地测评的时候遇到了问题,我的理解 MathEval的运行过程是: 1. 下载数据集 2. 构造合适的格式 3. 生成shell文件进行推理 4. 使用GPT4 extraction(可有可无) 5. 使用GPT4 verification(如果不进行第三步可以用Opencompass的regex结果),这里得把问题送给GPT4进行验证,得到验证结果写入文件 我的疑问是如果我说的流程是对的,怎么得到最终分数,文件里只有GPT4的response,怎么汇总,目前看代码是没有相关函数的,是我漏掉了什么吗 希望您能解答,谢谢 @TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu @zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu — Reply to this email directly, view it on GitHub <#4 https://github.com/math-eval/MathEval/issues/4>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ALHETY7INWQVLB7IRZL4433YJAHLDAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTOMRRG42DCNY https://github.com/notifications/unsubscribe-auth/ALHETY7INWQVLB7IRZL4433YJAHLDAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTOMRRG42DCNY . You are receiving this because you were mentioned.Message ID: @.>

@TjoyLiu https://github.com/TjoyLiu 谢谢您的回复,如果方便,可以发一下临时脚本

— Reply to this email directly, view it on GitHub https://github.com/math-eval/MathEval/issues/4#issuecomment-1853183426, or unsubscribe https://github.com/notifications/unsubscribe-auth/ALHETY76SW42JGCQ22SWD3DYJEJVXAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTQNJTGE4DGNBSGY . You are receiving this because you were mentioned.Message ID: @.***>

zyh3826 commented 11 months ago

Hello 您先check一下这个临时的出分脚本哈 On Wed, Dec 13, 2023 at 10:50 AM zyh3826 @.> wrote: 你的理解是很正确的,4和5我们建议如果有资源还是用GPT4来做,我们这边验证过opencompass的抽取和匹配在一些数据集上会有很大的问题。汇总分数的脚本我们还没有给出来,因为我们的榜单还差一点儿发布,当前的代码库也是未完成的,我们计划在发布的同时把代码库也一并发布出来,如果需要我可以提供一个临时的脚本给你用于跑分,但只适配我们GPT4的流程。如果你基于opencompass的话,我记得opencompass本身就可以直接输出分数。 … <#m-4625431551995882168> On Tue, Dec 12, 2023 at 4:17 PM zyh3826 @.> wrote: 您好,我在使用MathEval本地测评的时候遇到了问题,我的理解 MathEval的运行过程是: 1. 下载数据集 2. 构造合适的格式 3. 生成shell文件进行推理 4. 使用GPT4 extraction(可有可无) 5. 使用GPT4 verification(如果不进行第三步可以用Opencompass的regex结果),这里得把问题送给GPT4进行验证,得到验证结果写入文件 我的疑问是如果我说的流程是对的,怎么得到最终分数,文件里只有GPT4的response,怎么汇总,目前看代码是没有相关函数的,是我漏掉了什么吗 希望您能解答,谢谢 @TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu @zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu — Reply to this email directly, view it on GitHub <#4 <#4>>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ALHETY7INWQVLB7IRZL4433YJAHLDAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTOMRRG42DCNY https://github.com/notifications/unsubscribe-auth/ALHETY7INWQVLB7IRZL4433YJAHLDAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTOMRRG42DCNY . You are receiving this because you were mentioned.Message ID: @.> @TjoyLiu https://github.com/TjoyLiu 谢谢您的回复,如果方便,可以发一下临时脚本 — Reply to this email directly, view it on GitHub <#4 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ALHETY76SW42JGCQ22SWD3DYJEJVXAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTQNJTGE4DGNBSGY . You are receiving this because you were mentioned.Message ID: @.>

额,我这看不到临时脚本

TjoyLiu commented 11 months ago

我应该attach附件了的,您看得到嘛,我再attach一下

On Thu, Dec 14, 2023 at 9:48 AM zyh3826 @.***> wrote:

Hello 您先check一下这个临时的出分脚本哈 … <#m-7713488380508069959> On Wed, Dec 13, 2023 at 10:50 AM zyh3826 @.*> wrote: 你的理解是很正确的,4和5我们建议如果有资源还是用GPT4来做,我们这边验证过opencompass的抽取和匹配在一些数据集上会有很大的问题。汇总分数的脚本我们还没有给出来,因为我们的榜单还差一点儿发布,当前的代码库也是未完成的,我们计划在发布的同时把代码库也一并发布出来,如果需要我可以提供一个临时的脚本给你用于跑分,但只适配我们GPT4的流程。如果你基于opencompass的话,我记得opencompass本身就可以直接输出分数。 … <#m-4625431551995882168> On Tue, Dec 12, 2023 at 4:17 PM zyh3826 @.> wrote: 您好,我在使用MathEval本地测评的时候遇到了问题,我的理解 MathEval的运行过程是: 1. 下载数据集 2. 构造合适的格式

  1. 生成shell文件进行推理 4. 使用GPT4 extraction(可有可无) 5. 使用GPT4 verification(如果不进行第三步可以用Opencompass的regex结果),这里得把问题送给GPT4进行验证,得到验证结果写入文件 我的疑问是如果我说的流程是对的,怎么得到最终分数,文件里只有GPT4的response,怎么汇总,目前看代码是没有相关函数的,是我漏掉了什么吗 希望您能解答,谢谢 @TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu @zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu — Reply to this email directly, view it on GitHub <#4 https://github.com/math-eval/MathEval/issues/4 <#4 https://github.com/math-eval/MathEval/issues/4>>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ALHETY7INWQVLB7IRZL4433YJAHLDAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTOMRRG42DCNY https://github.com/notifications/unsubscribe-auth/ALHETY7INWQVLB7IRZL4433YJAHLDAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTOMRRG42DCNY https://github.com/notifications/unsubscribe-auth/ALHETY7INWQVLB7IRZL4433YJAHLDAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTOMRRG42DCNY https://github.com/notifications/unsubscribe-auth/ALHETY7INWQVLB7IRZL4433YJAHLDAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTOMRRG42DCNY . You are receiving this because you were mentioned.Message ID: @.> @TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu 谢谢您的回复,如果方便,可以发一下临时脚本 — Reply to this email directly, view it on GitHub <#4 (comment) https://github.com/math-eval/MathEval/issues/4#issuecomment-1853183426>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ALHETY76SW42JGCQ22SWD3DYJEJVXAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTQNJTGE4DGNBSGY https://github.com/notifications/unsubscribe-auth/ALHETY76SW42JGCQ22SWD3DYJEJVXAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTQNJTGE4DGNBSGY . You are receiving this because you were mentioned.Message ID: @.***>

额,我这看不到临时脚本

— Reply to this email directly, view it on GitHub https://github.com/math-eval/MathEval/issues/4#issuecomment-1854977773, or unsubscribe https://github.com/notifications/unsubscribe-auth/ALHETY5O2SIMUI7PHE74GVTYJJLIBAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTQNJUHE3TONZXGM . You are receiving this because you were mentioned.Message ID: @.***>

zyh3826 commented 11 months ago

我应该attach附件了的,您看得到嘛,我再attach一下 On Thu, Dec 14, 2023 at 9:48 AM zyh3826 @.> wrote: Hello 您先check一下这个临时的出分脚本哈 … <#m-7713488380508069959> On Wed, Dec 13, 2023 at 10:50 AM zyh3826 @.> wrote: 你的理解是很正确的,4和5我们建议如果有资源还是用GPT4来做,我们这边验证过opencompass的抽取和匹配在一些数据集上会有很大的问题。汇总分数的脚本我们还没有给出来,因为我们的榜单还差一点儿发布,当前的代码库也是未完成的,我们计划在发布的同时把代码库也一并发布出来,如果需要我可以提供一个临时的脚本给你用于跑分,但只适配我们GPT4的流程。如果你基于opencompass的话,我记得opencompass本身就可以直接输出分数。 … <#m-4625431551995882168> On Tue, Dec 12, 2023 at 4:17 PM zyh3826 @.> wrote: 您好,我在使用MathEval本地测评的时候遇到了问题,我的理解 MathEval的运行过程是: 1. 下载数据集 2. 构造合适的格式 3. 生成shell文件进行推理 4. 使用GPT4 extraction(可有可无) 5. 使用GPT4 verification(如果不进行第三步可以用Opencompass的regex结果),这里得把问题送给GPT4进行验证,得到验证结果写入文件 我的疑问是如果我说的流程是对的,怎么得到最终分数,文件里只有GPT4的response,怎么汇总,目前看代码是没有相关函数的,是我漏掉了什么吗 希望您能解答,谢谢 @TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu @zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu https://github.com/zitaoliu — Reply to this email directly, view it on GitHub <#4 <#4> <#4 <#4>>>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ALHETY7INWQVLB7IRZL4433YJAHLDAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTOMRRG42DCNY https://github.com/notifications/unsubscribe-auth/ALHETY7INWQVLB7IRZL4433YJAHLDAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTOMRRG42DCNY https://github.com/notifications/unsubscribe-auth/ALHETY7INWQVLB7IRZL4433YJAHLDAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTOMRRG42DCNY https://github.com/notifications/unsubscribe-auth/ALHETY7INWQVLB7IRZL4433YJAHLDAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTOMRRG42DCNY . You are receiving this because you were mentioned.Message ID: @.> @TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu https://github.com/TjoyLiu 谢谢您的回复,如果方便,可以发一下临时脚本 — Reply to this email directly, view it on GitHub <#4 (comment) <#4 (comment)>>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ALHETY76SW42JGCQ22SWD3DYJEJVXAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTQNJTGE4DGNBSGY https://github.com/notifications/unsubscribe-auth/ALHETY76SW42JGCQ22SWD3DYJEJVXAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTQNJTGE4DGNBSGY . You are receiving this because you were mentioned.Message ID: @.**> 额,我这看不到临时脚本 — Reply to this email directly, view it on GitHub <#4 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ALHETY5O2SIMUI7PHE74GVTYJJLIBAVCNFSM6AAAAABARBHFG6VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTQNJUHE3TONZXGM . You are receiving this because you were mentioned.Message ID: @.>

这里面所有链接我都点进去看了,还是没有,麻烦直接发我邮箱吧,zyh3826@gmail.com,谢谢