测评方式询问，只看每一步对不对吗？[Bug/Assistance]

THUDM / AgentBench

A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)

https://llmbench.ai

Apache License 2.0

2.03k stars 138 forks source link

测评方式询问，只看每一步对不对吗？[Bug/Assistance] #62

Closed Wenze7 closed 7 months ago

Wenze7 commented 8 months ago

想问下在测评的时候，是步骤之间分开测评吗，如paper中讲的，输入前面的ground truth，之后看当前步骤的结果对不对？这样我理解是不是分散的评测？

Wenze7 commented 8 months ago

是不是只提供instruction，之后进行交互，看agent最后能不能根据user的反馈（真实执行的情况）得到最后答案？

zhc7 commented 8 months ago

是不是只提供instruction，之后进行交互，看agent最后能不能根据user的反馈（真实执行的情况）得到最后答案？

基本上是这样的，有些任务会有额外的one-shot prompt（当然也可以理解为是instruction的一部分）

想问下在测评的时候，是步骤之间分开测评吗，如paper中讲的，输入前面的ground truth，之后看当前步骤的结果对不对？这样我理解是不是分散的评测？

这个具体是指什么步骤呢？不同测例的评测确实是独立和分散的

Wenze7 commented 8 months ago

是不是只提供instruction，之后进行交互，看agent最后能不能根据user的反馈（真实执行的情况）得到最后答案？

基本上是这样的，有些任务会有额外的one-shot prompt（当然也可以理解为是instruction的一部分）

想问下在测评的时候，是步骤之间分开测评吗，如paper中讲的，输入前面的ground truth，之后看当前步骤的结果对不对？这样我理解是不是分散的评测？

这个具体是指什么步骤呢？不同测例的评测确实是独立和分散的

感谢您的回答，那agent怎么和环境进行交互呢，是人类把环境结果告诉agent，还是agent自动获取，如果是自动获取是怎么做到的呢，然后agent又是怎么影响环境的呢

zhc7 commented 8 months ago

环境的结果会在相应环境的代码里用自定义的格式提供给agent，环境也会自行获取agent的输出并做相应的解析和操作。如果您想了解更细节的实现方式，可以参考src/server/task.py。