open-compass / T-Eval

[ACL2024] T-Eval: Evaluating Tool Utilization Capability of Large Language Models Step by Step
https://open-compass.github.io/T-Eval/
Apache License 2.0
235 stars 15 forks source link

关于plan_json_v1_zh.json数据文件答案问题 #35

Open 13416157913 opened 9 months ago

13416157913 commented 9 months ago

看了数据集里面的问题后(例如:query_148_0),发现里面答案部分(ground_truth),有些是写明了具体id号或地址,但是实际用户的问题中,未明确提到具体的id,试问模型回答时,怎么知道最受欢迎那个电影movie_id是299054(这个id号应该是随便写的吧?),怎么会做的到模型回答的这个movie_id跟你的答案一摸一样?如果是这样的,是不是模型很难得到高分?