THUDM / AgentBench

A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)
https://llmbench.ai
Apache License 2.0
2.03k stars 138 forks source link

[Assistance] 如何获得每个task的得分? #80

Closed Jiaqi0109 closed 7 months ago

Jiaqi0109 commented 7 months ago

hi, 我根据 readme 的步骤运行了 python -m src.assigner 任务,且一切正常。 得到了 outputs/2023-11-xx-xx-xx-xx/model-name/task-name/runs.jsonl 的 log,接下来我该如何计算每个任务的准确率,或者是得分呢?

Jiaqi0109 commented 7 months ago

是不是由于评测过程中有部分出错的问题,所以没有生成 overall.json 文件?