Open longshuicui opened 7 months ago
我在使用gpt-4-turbo生成solution path的时候,工具调用是正常的,但是推理过程错了,导致最终答案是错的。 比如: query: 下周从上海去北京,帮忙订一下飞机票 gpt4: Thought:需要获取当前时间,来判断下周的日期。Action:getCurrentDate ActionInput: "" function: 2023-12-13(周三) gpt4: 今天是2023-12-13,下周就是 2023-12-20,已知时间和出发地和目的地,开始订机票 ....... gpt4: 查询到航班号:xxx,起飞时间 2023-12-20 12:45 上海虹桥机场 ....
上述例子中时间推理是错误的,应该是询问用户的出发时间,而不是直接+7天, 这种类似情况,整个过程是没有问题的,但是最终结果不对。
感谢您提出这个问题,在该例子中,tooleval可能会评为pass,原因有以下几点:
对于模糊query,模型提出要交互是一种好的表现,考虑多轮交互会是tooleval需要改进的地方;tooleval关于solution path的评判细则可以参考论文附录,这两个问题都是值得讨论研究的课题,欢迎大家继续在这个issue下交流讨论~
我在使用gpt-4-turbo生成solution path的时候,工具调用是正常的,但是推理过程错了,导致最终答案是错的。 比如: query: 下周从上海去北京,帮忙订一下飞机票 gpt4: Thought:需要获取当前时间,来判断下周的日期。Action:getCurrentDate ActionInput: "" function: 2023-12-13(周三) gpt4: 今天是2023-12-13,下周就是 2023-12-20,已知时间和出发地和目的地,开始订机票 ....... gpt4: 查询到航班号:xxx,起飞时间 2023-12-20 12:45 上海虹桥机场 ....
上述例子中时间推理是错误的,应该是询问用户的出发时间,而不是直接+7天, 这种类似情况,整个过程是没有问题的,但是最终结果不对。