jeinlee1991 / chinese-llm-benchmark

中文大模型能力评测榜单:目前已囊括128个大模型,覆盖chatgpt、gpt-4o、谷歌gemini、百度文心一言、阿里通义千问、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及qwen2.5、llama3.1、glm4、书生internLM2.5、openbuddy、AquilaChat等开源大模型。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
2.77k stars 129 forks source link

10B以下的LLM排名不太准确,实际使用ChatGLM3-6B和Qwen1.5-7B表现更好 #37

Open danny-zhu opened 5 months ago

danny-zhu commented 5 months ago

如题,

boystray commented 5 months ago

ChatGLM3比ChatGLM4好哦,测试过一些。

MrXionGe commented 4 months ago

我们之前算法团队内部评测过,综合下来ChatGLM3-6B比Qwen1.5-7B好一些。(我们是私有化场景)