THUDM / AgentBench

A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)
https://llmbench.ai
Apache License 2.0
2.03k stars 138 forks source link

[Bug/Assistance] 一部分执行成功,一部分执行失败的怎么处理 #65

Closed wangyanli3630 closed 7 months ago

wangyanli3630 commented 8 months ago

一部分执行成功,一部分执行失败的怎么处理,没有一个总结性的结果,是需要重新运行一次直到全部成功吗

zhc7 commented 8 months ago

目前的设计是只有全部执行完才可以计算metrics,可以指定输出目录下面的config.yaml作为assigner的config,这样可以自动断点续传。或者也可以在跑assigner的时候使用-r参数,这样可以支持自动重测失败的样例。