CLUEbenchmark / SuperCLUE

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese
https://www.superclueai.com
3.02k stars 97 forks source link

公开评测集和评测标准 #13

Closed plmsmile closed 1 year ago

plmsmile commented 1 year ago

不知道到底评的是什么和怎么评测的。能不能公开一下。

brightmart commented 1 year ago

由于测评还在进行,评测集会在完成测评后公开。 测评标准,是根据题目让模型进行预测,并与标准答案进行匹配,并计算准确率

TChengZ commented 8 months ago

由于测评还在进行,评测集会在完成测评后公开。 测评标准,是根据题目让模型进行预测,并与标准答案进行匹配,并计算准确率

对于一些需要做理解总结的主观题目,这种题目要怎么计算大模型回答得对不对呢