Closed WuXuan374 closed 7 months ago
您好!非常感谢 AgentBench 这个工作,我觉得 AgentBench 提供了复杂环境下通过交互的形式使用大模型的一种方法,具备很好的通用性。
我想向您确认的是文中所报告的 KBQA 任务使用的数据集信息。当前版本的论文中 (https://arxiv.org/pdf/2308.03688.pdf) 对于数据集信息的描述似乎有些出入。
根据论文 Table 2 中的描述,KBQA 任务使用的 Dev Set 大小为 20,Test Set 大小为 150;这与 Github 仓库中所给出的数据集信息 (https://github.com/THUDM/AgentBench/tree/main/data/knowledgegraph) 也是吻合的
但是在 Appendix D 中,相关描述是 "a dataset consisting of 1,663 questions" 和 "We use the first 500 tasks from the dataset for evaluation". 对于这部分描述,我的理解是所使用数据的验证集大小为 500, 测试集大小为 1,163.
因此,想向您确认一下上面的两种理解,哪一种是正确的呢?谢谢!
您好!非常感谢 AgentBench 这个工作,我觉得 AgentBench 提供了复杂环境下通过交互的形式使用大模型的一种方法,具备很好的通用性。
我想向您确认的是文中所报告的 KBQA 任务使用的数据集信息。当前版本的论文中 (https://arxiv.org/pdf/2308.03688.pdf) 对于数据集信息的描述似乎有些出入。
根据论文 Table 2 中的描述,KBQA 任务使用的 Dev Set 大小为 20,Test Set 大小为 150;这与 Github 仓库中所给出的数据集信息 (https://github.com/THUDM/AgentBench/tree/main/data/knowledgegraph) 也是吻合的![image](https://github.com/THUDM/AgentBench/assets/48612702/8bc119c1-b5a7-4741-a6db-572877b9a694)
但是在 Appendix D 中,相关描述是 "a dataset consisting of 1,663 questions" 和 "We use the first 500 tasks from the dataset for evaluation". 对于这部分描述,我的理解是所使用数据的验证集大小为 500, 测试集大小为 1,163.
![image](https://github.com/THUDM/AgentBench/assets/48612702/4d8f5ac3-ac4f-4ce7-b0e6-7859ca33cce3)
因此,想向您确认一下上面的两种理解,哪一种是正确的呢?谢谢!