Describe the bug
我在使用gpt-3.5-turbo复现AgentBench中的mind2web(m2w)时,注意到有35%的结果为unknown,在runs.jsonl中,这35%的unknown结果没有任何的输出。
原以为是自己的问题,但注意到我复现出的分数与论文中的分数近乎一致(原论文20分,我的23分),所以这应该是AgentBench本身的问题,希望作者能修复这个unknown。
Screenshots or Terminal Copy&Paste
Desktop (please complete the following information):
Describe the bug 我在使用gpt-3.5-turbo复现AgentBench中的mind2web(m2w)时,注意到有35%的结果为unknown,在
runs.jsonl
中,这35%的unknown结果没有任何的输出。 原以为是自己的问题,但注意到我复现出的分数与论文中的分数近乎一致(原论文20分,我的23分),所以这应该是AgentBench本身的问题,希望作者能修复这个unknown。Screenshots or Terminal Copy&Paste
Desktop (please complete the following information):