工具使用的四大能力之间有什么区别吗？（调用api，检索api，规划api，通用工具使用)

CLUEbenchmark / SuperCLUE-Agent

SuperCLUE-Agent: 基于中文原生任务的Agent智能体核心能力测评基准

77 stars 2 forks source link

Open DryPilgrim opened 9 months ago

DryPilgrim commented 9 months ago

如题， 1.工具使用的四大能力之间有什么区别吗？（调用api，检索api，规划api，通用工具使用) 2.他们的测试集、测试方法、评估指标分别是啥呀？

感谢您的回答：）

brightmart commented 9 months ago

brightmart commented 9 months ago

Agent基准参考了OPEN基准，采用被测模型与代表性国际模型进行对战形式，计算胜率。
具体的，被测模型与3.5进行对战，计算胜（得3分）、平（得1分）、和（得0分）的成绩，算总成绩，并进行归一化。总之，这是相对于同一个基准模型的相对分数或成绩。

zhangbaijin commented 9 months ago

你好，可以开源评测代码吗

goqw commented 4 months ago

完全没看懂function calling的评测方法，或许根本就没有。