CLUEbenchmark / SuperCLUE

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese
https://www.superclueai.com
3.02k stars 97 forks source link

这个评测的参考价值 #10

Closed liuyajun52 closed 1 year ago

liuyajun52 commented 1 year ago

作为一个评测,即不公布评测方法,也不公布评测数据,就直接扔上来一个表格,而且还在某厂商发布第二天发布,简直是Shame,根本无任何参考价值。毕竟任何人,都可以花几分钟就可以在做个表格扔到GitHub上。这种评测我只信双盲测试:

  1. 在所有用户的提示词中随机选取测试提示词集合,以此减少提示词集合的片面性
  2. 将同一个提示器集合喂给待测试AI,记录对话数据
  3. 将对话数据,随机发放给人类用户打分(用户不知道是哪个AI的回答)
  4. 使用统计学方法统计用户打分,给出评测报告
So0ni commented 1 year ago

而且人类得分这么高,即使真的做了评测,也非常怀疑评测的公平性。从实际体验来看,至少GPT4的能力是在人类平均水平之上的。

brightmart commented 1 year ago

安排