Closed liuyajun52 closed 1 year ago
作为一个评测,即不公布评测方法,也不公布评测数据,就直接扔上来一个表格,而且还在某厂商发布第二天发布,简直是Shame,根本无任何参考价值。毕竟任何人,都可以花几分钟就可以在做个表格扔到GitHub上。这种评测我只信双盲测试:
而且人类得分这么高,即使真的做了评测,也非常怀疑评测的公平性。从实际体验来看,至少GPT4的能力是在人类平均水平之上的。
安排
作为一个评测,即不公布评测方法,也不公布评测数据,就直接扔上来一个表格,而且还在某厂商发布第二天发布,简直是Shame,根本无任何参考价值。毕竟任何人,都可以花几分钟就可以在做个表格扔到GitHub上。这种评测我只信双盲测试: