jeinlee1991 / chinese-llm-benchmark

中文大模型能力评测榜单:目前已囊括128个大模型,覆盖chatgpt、gpt-4o、谷歌gemini、百度文心一言、阿里通义千问、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及qwen2.5、llama3.1、glm4、书生internLM2.5、openbuddy、AquilaChat等开源大模型。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
2.63k stars 123 forks source link

评测数据无法吐槽 #35

Open freedomRen opened 5 months ago

freedomRen commented 5 months ago

要是无法放出完整的数据和评测代码,还是不要建立git仓库了吧

Yidadaa commented 4 months ago

如果放出了评测数据,你猜这些模型会不会在评测数据集上疯狂过拟合。

513105c4e159a75c9e48d4b218ff35d8

wyweiyangweiGh commented 2 months ago

如果不开源,没必要放github;

如果放出了评测数据,会导致评测失效,那更没必要放github

EVA09 commented 3 weeks ago

凑合看看,至少价格是真的。