jeinlee1991 / chinese-llm-benchmark

中文大模型能力评测榜单:目前已囊括115个大模型,覆盖chatgpt、gpt4o、百度文心一言、阿里通义千问、讯飞星火、商汤senseChat、minimax等商用模型, 以及百川、qwen2、glm4、yi、书生internLM2、llama3等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
2.31k stars 111 forks source link

能否加入Function Call(工具调用)能力指标评测 #31

Open Dream-s-Wang opened 5 months ago

Dream-s-Wang commented 5 months ago

如题,能否加入Function Call(工具调用)能力指标评测 参考: https://gorilla.cs.berkeley.edu/leaderboard.html#api-explorer https://github.com/codefuse-ai/codefuse-devops-eval/blob/main/resources/tool_learning_evalution.md

jeinlee1991 commented 4 months ago

计划中