Closed DryPilgrim closed 12 months ago
非常感谢您的回答 Tks :-) ,我还有疑问想请教一下:
我这里提到的reward是指AgentTunning中用来评估交互轨迹质量的reward, AgentBench中没有提到要评估交互轨迹的质量。 reward和metric不一样,以DB为例,metric是模型sql操作的成功率SR,属于整个数据集层面;reward是衡量trajectory的质量,属于单条交互轨迹层面。所以对于DB任务来说,AgentBench中的metrics不能拿来作为AgentTunning中交互轨迹的评估分数reward。
AgentBench 论文中说开源了Datasets,只有#dev和#test,没有训练集吗?
也感谢您的持续关注! :-)
1 AgentTunning仓库中为什么没有held_in任务的评测呀(已有eval_heldout和eval_general)? 2 agentBench的代码中是在哪里计算的DB的SR呀?我看了代码,发现只有webshop实现了SR计算(THUDM/AgentBench/src/server/tasks/webshop/baseline_models/test.py)。此外,data中也没有webshop数据。 3 AgentBench训练集要自己重新构造吗?比如DB任务,需要自己收集混合WikiSQL、WikiTableQuestions等等。有处理训练集的脚本吗?
./AgentBench.old
文件夹下THUDM/AgentBench/src/server/tasks/dbbench/_init_.py
第 173 行,旧版位于 THUDM/AgentTuning/AgentBench.old/src/server/tasks/dbbench/_init_.py
第 176 行
请教以下问题,非常感谢您的回答:)
1.AgentBench 论文附录中数据集的 Dataset details 中找不到reward的计算方式!?比如DB的C.1中只是提到”Metrics. We measure the Success Rate of agents in completing instructions.“ 这个不是计算trajectory的reward分数(而且AgentBench中DB数据并没有trajectory)。