CLUEbenchmark / SuperCLUE

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese
https://www.superclueai.com
3.02k stars 97 forks source link

请问评测的原理是什么呀,是人工打分的吗,如果是客观题是直接比较返回的答案的字符串,主观题是人工评判答案吗 #47

Open starplatinum3 opened 4 months ago

elmliu commented 3 months ago

参考项目论文实验的Evaluation Metrics部分,封闭式选择题就是算准确度,开放式的题目用GPT4判断两两模型间谁的回答更优秀,计算每个模型的胜出率