Closed Syno8 closed 3 months ago
如果是单文档问答,我们在论文中也得出了类似的结论。可能这个任务就是不难,所以gpt3.5足够了。但是,quest eval model 用gpt-3.5和gpt-4o应该影响不大,我试过用gpt3.5做eval model和用gpt-4o做eval model,差距不大。
src/quest_eval/QuestAnswer1Doc_quest_gt_save.json不是实验结果文件,是用于评估生成内容的问答题目
quest eval model 用gpt-3.5和gpt-4o应该影响不大,我试过用gpt3.5做eval model和用gpt-4o做eval model,差距不大。
是的,
src/quest_eval/QuestAnswer1Doc_quest_gt_save.json不是实验结果文件,是用于评估生成内容的问答题目
好滴,我看你代码里面有这个分支,我还以为是你们用gpt-3.5 生成的,看起来有一些ground truth 没有正确召回来的结果,gpt-4o有答案;
感谢提醒和反馈🙏。
随着gpt系列模型的进步,用最新的gpt用做评估模型可能更准。不过论文里的结果用的是旧的gpt。非常欢迎用最新的gpt-4o重做实验!
我发现那个quest eval 下面有 src/quest_eval/QuestAnswer1Doc_quest_gt_save.json
这个文件就是gpt-3.5 生成的init 版文件叭,所以这个gpt3.5 比gpt-4o 要更高?
@haruhi-sudo