中文大模型能力评测榜单:目前已囊括115个大模型,覆盖chatgpt、gpt4o、百度文心一言、阿里通义千问、讯飞星火、商汤senseChat、minimax等商用模型, 以及百川、qwen2、glm4、yi、书生internLM2、llama3等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
2.35k
stars
112
forks
source link
为什么千问1.5-14B-chat分这么高,比72b还高? #28
Closed
yu-zheng-tao closed 5 months ago
感谢作者的贡献。观察到榜单中14B模型比72B模型综合能力还强,感觉很困惑。