jeinlee1991 / chinese-llm-benchmark

中文大模型能力评测榜单:目前已囊括115个大模型,覆盖chatgpt、gpt4o、百度文心一言、阿里通义千问、讯飞星火、商汤senseChat、minimax等商用模型, 以及百川、qwen2、glm4、yi、书生internLM2、llama3等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
2.35k stars 112 forks source link

为什么千问1.5-14B-chat分这么高,比72b还高? #28

Closed yu-zheng-tao closed 5 months ago

yu-zheng-tao commented 6 months ago

感谢作者的贡献。观察到榜单中14B模型比72B模型综合能力还强,感觉很困惑。

liangfengyuan commented 5 months ago

确实好奇怪。。

Linjiahua commented 5 months ago

同样的问题

64933988 commented 5 months ago

如果不解释,懂得自然懂。还有InternLM2-Chat-7B比官方声明的还高一大截,大佬要注意信誉啊!

jeinlee1991 commented 5 months ago

大模型评测是一件很困难的事情,原因有以下几点: