tianyi-lab / HallusionBench

[CVPR'24] HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models
BSD 3-Clause "New" or "Revised" License
204 stars 4 forks source link

gpt版本问题 #12

Closed yiyexy closed 1 month ago

yiyexy commented 1 month ago

你好,我在使用lmms-eval仓库对该测试集进行评估时,遇到了一下问题。 使用gpt-4,我的平均分数为23;但是该api有最大请求数量限制,我在进行这一次的评分之中,可能有部分样本超出了限制而请求gpt失败。 随后我更换为gpt-4o,最终的平均分数为25+ 我想请问直接使用gpt-4o进行评估是否有问题?

rayguan97 commented 1 month ago

你好,我再确认一下,请问你说的是evaluation script,不是被evaluate的model对吧?

“我想请问直接使用gpt-4o进行评估是否有问题?” -- 不会有什么问题。

yiyexy commented 4 weeks ago

你好,你们的数据集似乎需要gpt来辅助评分,我指定评分的模型为gpt-4o和gpt-4的最终分数不一致。