这个评测的参考价值 - Githubissues

CLUEbenchmark / SuperCLUE

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese

https://www.superclueai.com

3.02k stars 97 forks source link

这个评测的参考价值 #10

Closed liuyajun52 closed 1 year ago

liuyajun52 commented 1 year ago

作为一个评测，即不公布评测方法，也不公布评测数据，就直接扔上来一个表格，而且还在某厂商发布第二天发布，简直是Shame，根本无任何参考价值。毕竟任何人，都可以花几分钟就可以在做个表格扔到GitHub上。这种评测我只信双盲测试：

在所有用户的提示词中随机选取测试提示词集合，以此减少提示词集合的片面性
将同一个提示器集合喂给待测试AI，记录对话数据
将对话数据，随机发放给人类用户打分（用户不知道是哪个AI的回答）
使用统计学方法统计用户打分，给出评测报告

So0ni commented 1 year ago

而且人类得分这么高，即使真的做了评测，也非常怀疑评测的公平性。从实际体验来看，至少GPT4的能力是在人类平均水平之上的。

brightmart commented 1 year ago

安排