KBQA 任务数据集信息确认

您好！非常感谢 AgentBench 这个工作，我觉得 AgentBench 提供了复杂环境下通过交互的形式使用大模型的一种方法，具备很好的通用性。

我想向您确认的是文中所报告的 KBQA 任务使用的数据集信息。当前版本的论文中 (https://arxiv.org/pdf/2308.03688.pdf) 对于数据集信息的描述似乎有些出入。

根据论文 Table 2 中的描述，KBQA 任务使用的 Dev Set 大小为 20，Test Set 大小为 150；这与 Github 仓库中所给出的数据集信息 (https://github.com/THUDM/AgentBench/tree/main/data/knowledgegraph) 也是吻合的

但是在 Appendix D 中，相关描述是 "a dataset consisting of 1,663 questions" 和 "We use the first 500 tasks from the dataset for evaluation". 对于这部分描述，我的理解是所使用数据的验证集大小为 500，测试集大小为 1,163.

因此，想向您确认一下上面的两种理解，哪一种是正确的呢？谢谢！

THUDM / AgentBench

KBQA 任务数据集信息确认 #88