我测试出来quest eval（quest eval model 用gpt-3.5）时，gpt 3.5 的得分比gpt-4o 还要高

Syno8 commented 3 months ago

我发现那个quest eval 下面有 src/quest_eval/QuestAnswer1Doc_quest_gt_save.json

这个文件就是gpt-3.5 生成的init 版文件叭，所以这个gpt3.5 比gpt-4o 要更高？

@haruhi-sudo

haruhi-sudo commented 3 months ago

如果是单文档问答，我们在论文中也得出了类似的结论。可能这个任务就是不难，所以gpt3.5足够了。但是，quest eval model 用gpt-3.5和gpt-4o应该影响不大，我试过用gpt3.5做eval model和用gpt-4o做eval model，差距不大。

haruhi-sudo commented 3 months ago

src/quest_eval/QuestAnswer1Doc_quest_gt_save.json不是实验结果文件，是用于评估生成内容的问答题目

Syno8 commented 3 months ago

quest eval model 用gpt-3.5和gpt-4o应该影响不大，我试过用gpt3.5做eval model和用gpt-4o做eval model，差距不大。

是的，

当我用你们默认提供的src/quest_eval/QuestAnswer1Doc_quest_gt_save.json 文件，感觉差别不大
所以我研究了一下gpt-3.5 为什么高，我就发现每次是读取这个文件作为answers_gt4gt，有可能是gpt-3.5 能抽取的出来的answers_gm4gt 和这个文件里面的answers_gt4gt 比较接近；（因为我发现gpt-4o用generate model 的时候，answers_gt4gt 无法推断的问题，answers_gm4gt 能生成出来）
我试了一下answers_gt4gt 用gpt-4o 重新生成，而不是直接读取json 文件的结果，发现指标会比gpt-3.5的高许多，由于速度比较慢，目前还只测了1个模型

src/quest_eval/QuestAnswer1Doc_quest_gt_save.json不是实验结果文件，是用于评估生成内容的问答题目

好滴，我看你代码里面有这个分支，我还以为是你们用gpt-3.5 生成的，看起来有一些ground truth 没有正确召回来的结果，gpt-4o有答案；

haruhi-sudo commented 3 months ago

感谢提醒和反馈🙏。

随着gpt系列模型的进步，用最新的gpt用做评估模型可能更准。不过论文里的结果用的是旧的gpt。非常欢迎用最新的gpt-4o重做实验！

IAAR-Shanghai / CRUD_RAG