THUDM / AgentBench

A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)
https://llmbench.ai
Apache License 2.0
2.03k stars 138 forks source link

KBQA 任务数据集信息确认 #88

Closed WuXuan374 closed 7 months ago

WuXuan374 commented 7 months ago

您好!非常感谢 AgentBench 这个工作,我觉得 AgentBench 提供了复杂环境下通过交互的形式使用大模型的一种方法,具备很好的通用性。

我想向您确认的是文中所报告的 KBQA 任务使用的数据集信息。当前版本的论文中 (https://arxiv.org/pdf/2308.03688.pdf) 对于数据集信息的描述似乎有些出入。

根据论文 Table 2 中的描述,KBQA 任务使用的 Dev Set 大小为 20,Test Set 大小为 150;这与 Github 仓库中所给出的数据集信息 (https://github.com/THUDM/AgentBench/tree/main/data/knowledgegraph) 也是吻合的 image

但是在 Appendix D 中,相关描述是 "a dataset consisting of 1,663 questions" 和 "We use the first 500 tasks from the dataset for evaluation". 对于这部分描述,我的理解是所使用数据的验证集大小为 500, 测试集大小为 1,163. image image

因此,想向您确认一下上面的两种理解,哪一种是正确的呢?谢谢!