如何提交自己的模型进行评测？

jeinlee1991 / chinese-llm-benchmark

中文大模型能力评测榜单：目前已囊括128个大模型，覆盖chatgpt、gpt-4o、谷歌gemini、百度文心一言、阿里通义千问、百川、讯飞星火、商汤senseChat、minimax等商用模型，以及qwen2.5、llama3.1、glm4、书生internLM2.5、openbuddy、AquilaChat等开源大模型。不仅提供能力评分排行榜，也提供所有模型的原始输出结果！

2.63k stars 123 forks source link

如何提交自己的模型进行评测？ #4

Open Taoooo9 opened 1 year ago

Taoooo9 commented 1 year ago

很好的工作，有没有自动化的评测流程？

mary-0830 commented 1 year ago

+1想问一下，分数使用人工打分吗，请问需要多少个人对这些模型进行评分呢？