[Assistance] 如何获得每个task的得分？

THUDM / AgentBench

A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)

https://llmbench.ai

Apache License 2.0

2.03k stars 138 forks source link

[Assistance] 如何获得每个task的得分？ #80

Closed Jiaqi0109 closed 7 months ago

Jiaqi0109 commented 7 months ago

hi，我根据 readme 的步骤运行了 python -m src.assigner 任务，且一切正常。得到了 outputs/2023-11-xx-xx-xx-xx/model-name/task-name/runs.jsonl 的 log，接下来我该如何计算每个任务的准确率，或者是得分呢？

Jiaqi0109 commented 7 months ago

是不是由于评测过程中有部分出错的问题，所以没有生成 overall.json 文件？