CLUEbenchmark / SuperCLUE-Agent

SuperCLUE-Agent: 基于中文原生任务的Agent智能体核心能力测评基准
78 stars 2 forks source link

每个task的指标怎么计算的在哪里来看? #4

Open HelloWorld4747 opened 11 months ago

HelloWorld4747 commented 11 months ago

您好, 想请教一下,就是每个task的指标怎么计算的在哪里看呀?有没有official的说明文档或者up-to-date的paper呢?

谢谢!

brightmart commented 11 months ago

Agent基准参考了OPEN基准,采用被测模型与代表性国际模型进行对战形式,计算胜率。 具体的,被测模型与3.5进行对战,计算胜(得3分)、平(得1分)、和(得0分)的成绩,算总成绩,并进行归一化。总之,这是相对于同一个基准模型的相对分数或成绩。

YinSonglin1997 commented 4 months ago

Agent基准参考了OPEN基准,采用被测模型与代表性国际模型进行对战形式,计算胜率。 具体的,被测模型与3.5进行对战,计算胜(得3分)、平(得1分)、和(得0分)的成绩,算总成绩,并进行归一化。总之,这是相对于同一个基准模型的相对分数或成绩。

徐老师您好,请问胜、平、和的分数是人为打分的吗?我理解的是模型对战时,两个模型会针对问题进行回答,但哪个答案更优是如何判断的呢?