IAAR-Shanghai / CRUD_RAG

CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models
https://arxiv.org/abs/2401.17043
241 stars 20 forks source link

我测试出来quest eval(quest eval model 用gpt-3.5)时,gpt 3.5 的得分比gpt-4o 还要高 #19

Closed Syno8 closed 3 months ago

Syno8 commented 3 months ago

我发现那个quest eval 下面有 src/quest_eval/QuestAnswer1Doc_quest_gt_save.json

这个文件就是gpt-3.5 生成的init 版文件叭,所以这个gpt3.5 比gpt-4o 要更高?

@haruhi-sudo

haruhi-sudo commented 3 months ago

如果是单文档问答,我们在论文中也得出了类似的结论。可能这个任务就是不难,所以gpt3.5足够了。但是,quest eval model 用gpt-3.5和gpt-4o应该影响不大,我试过用gpt3.5做eval model和用gpt-4o做eval model,差距不大。

haruhi-sudo commented 3 months ago

src/quest_eval/QuestAnswer1Doc_quest_gt_save.json不是实验结果文件,是用于评估生成内容的问答题目

Syno8 commented 3 months ago

quest eval model 用gpt-3.5和gpt-4o应该影响不大,我试过用gpt3.5做eval model和用gpt-4o做eval model,差距不大。

是的,

  1. 当我用你们默认提供的src/quest_eval/QuestAnswer1Doc_quest_gt_save.json 文件,感觉差别不大
  2. 所以我研究了一下gpt-3.5 为什么高,我就发现每次是读取这个文件作为answers_gt4gt,有可能是gpt-3.5 能抽取的出来的answers_gm4gt 和这个文件里面的answers_gt4gt 比较接近;(因为我发现gpt-4o用generate model 的时候,answers_gt4gt 无法推断的问题,answers_gm4gt 能生成出来)
  3. 我试了一下answers_gt4gt 用gpt-4o 重新生成,而不是直接读取json 文件的结果,发现指标会比gpt-3.5的高许多,由于速度比较慢,目前还只测了1个模型

src/quest_eval/QuestAnswer1Doc_quest_gt_save.json不是实验结果文件,是用于评估生成内容的问答题目

好滴,我看你代码里面有这个分支,我还以为是你们用gpt-3.5 生成的,看起来有一些ground truth 没有正确召回来的结果,gpt-4o有答案; image

haruhi-sudo commented 3 months ago

感谢提醒和反馈🙏。

随着gpt系列模型的进步,用最新的gpt用做评估模型可能更准。不过论文里的结果用的是旧的gpt。非常欢迎用最新的gpt-4o重做实验!