THUDM / AgentBench

A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)
https://llmbench.ai
Apache License 2.0
2.23k stars 159 forks source link

[Bug/Assistance] mind2web的unknown是怎么回事? #129

Open Tangent-90C opened 8 months ago

Tangent-90C commented 8 months ago

Describe the bug 我在使用gpt-3.5-turbo复现AgentBench中的mind2web(m2w)时,注意到有35%的结果为unknown,在runs.jsonl中,这35%的unknown结果没有任何的输出。 原以为是自己的问题,但注意到我复现出的分数与论文中的分数近乎一致(原论文20分,我的23分),所以这应该是AgentBench本身的问题,希望作者能修复这个unknown。

Screenshots or Terminal Copy&Paste image image image

Desktop (please complete the following information):

zhc7 commented 8 months ago

Hi, @Tangent-90C 这是正常的,这个涉及到Mind2Web环境本身的一些问题,可以暂时忽略