为什么千问1.5-14B-chat分这么高，比72b还高？

yu-zheng-tao commented 6 months ago

感谢作者的贡献。观察到榜单中14B模型比72B模型综合能力还强，感觉很困惑。

liangfengyuan commented 5 months ago

确实好奇怪。。

Linjiahua commented 5 months ago

同样的问题

64933988 commented 5 months ago

如果不解释，懂得自然懂。还有InternLM2-Chat-7B比官方声明的还高一大截，大佬要注意信誉啊！

jeinlee1991 commented 5 months ago

大模型评测是一件很困难的事情，原因有以下几点：

评测集很难覆盖方方面面的模型能力，模型擅长的各种能力，不一定能完全体现出来。比如本榜单也仅仅考虑少数几个维度。
评分能在很大程度上反映模型在某些维度的能力，但做不到100%的确定性（况且评测数据量也有限）。偶尔几个模型的评分出乎意外，也在意料之中。
现有的大模型对prompt还是有比较大的依赖，不同prompt对评分的影响较大，不同的大模型可能会适合不同的prompt。但是评测方法都是选择统一的prompt，一方面是因为公平性，另一方面是因为工作量问题，很难针对每一个模型做prompt优化。
由于大模型训练数据规模非常大，不排除评测集的数据有意或无意泄露到训练集中。
大模型的尺寸越大通常来说能力也会越强，但不是绝对的。有些维度的能力，稍小的大模型也能很好地掌握。

jeinlee1991 / chinese-llm-benchmark