请问评测的原理是什么呀，是人工打分的吗，如果是客观题是直接比较返回的答案的字符串，主观题是人工评判答案吗

CLUEbenchmark / SuperCLUE

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese

https://www.superclueai.com

3.02k stars 97 forks source link

Open starplatinum3 opened 4 months ago

elmliu commented 3 months ago

参考项目论文实验的Evaluation Metrics部分，封闭式选择题就是算准确度，开放式的题目用GPT4判断两两模型间谁的回答更优秀，计算每个模型的胜出率