THUDM / AgentBench

A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)
https://llmbench.ai
Apache License 2.0
2.03k stars 138 forks source link

测评方式询问,只看每一步对不对吗?[Bug/Assistance] #62

Closed Wenze7 closed 7 months ago

Wenze7 commented 8 months ago

想问下在测评的时候,是步骤之间分开测评吗,如paper中讲的,输入前面的ground truth,之后看当前步骤的结果对不对?这样我理解是不是分散的评测?

Wenze7 commented 8 months ago

是不是只提供instruction,之后进行交互,看agent最后能不能根据user的反馈(真实执行的情况)得到最后答案?

zhc7 commented 8 months ago

是不是只提供instruction,之后进行交互,看agent最后能不能根据user的反馈(真实执行的情况)得到最后答案?

基本上是这样的,有些任务会有额外的one-shot prompt(当然也可以理解为是instruction的一部分)

想问下在测评的时候,是步骤之间分开测评吗,如paper中讲的,输入前面的ground truth,之后看当前步骤的结果对不对?这样我理解是不是分散的评测?

这个具体是指什么步骤呢?不同测例的评测确实是独立和分散的

Wenze7 commented 8 months ago

是不是只提供instruction,之后进行交互,看agent最后能不能根据user的反馈(真实执行的情况)得到最后答案?

基本上是这样的,有些任务会有额外的one-shot prompt(当然也可以理解为是instruction的一部分)

想问下在测评的时候,是步骤之间分开测评吗,如paper中讲的,输入前面的ground truth,之后看当前步骤的结果对不对?这样我理解是不是分散的评测?

这个具体是指什么步骤呢?不同测例的评测确实是独立和分散的

感谢您的回答,那agent怎么和环境进行交互呢,是人类把环境结果告诉agent,还是agent自动获取,如果是自动获取是怎么做到的呢,然后agent又是怎么影响环境的呢

zhc7 commented 8 months ago

环境的结果会在相应环境的代码里用自定义的格式提供给agent,环境也会自行获取agent的输出并做相应的解析和操作。如果您想了解更细节的实现方式,可以参考src/server/task.py