[Bug/Assistance] 一部分执行成功，一部分执行失败的怎么处理

THUDM / AgentBench

A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)

https://llmbench.ai

Apache License 2.0

2.03k stars 138 forks source link

Closed wangyanli3630 closed 7 months ago

wangyanli3630 commented 8 months ago

一部分执行成功，一部分执行失败的怎么处理，没有一个总结性的结果，是需要重新运行一次直到全部成功吗

zhc7 commented 8 months ago

目前的设计是只有全部执行完才可以计算metrics，可以指定输出目录下面的config.yaml作为assigner的config，这样可以自动断点续传。或者也可以在跑assigner的时候使用-r参数，这样可以支持自动重测失败的样例。