gpt版本问题 - Githubissues

tianyi-lab / HallusionBench

[CVPR'24] HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

BSD 3-Clause "New" or "Revised" License

204 stars 4 forks source link

gpt版本问题 #12

Closed yiyexy closed 1 month ago

yiyexy commented 1 month ago

你好，我在使用lmms-eval仓库对该测试集进行评估时，遇到了一下问题。使用gpt-4，我的平均分数为23；但是该api有最大请求数量限制，我在进行这一次的评分之中，可能有部分样本超出了限制而请求gpt失败。随后我更换为gpt-4o，最终的平均分数为25+ 我想请问直接使用gpt-4o进行评估是否有问题？

rayguan97 commented 1 month ago

你好，我再确认一下，请问你说的是evaluation script，不是被evaluate的model对吧？

“我想请问直接使用gpt-4o进行评估是否有问题？” -- 不会有什么问题。

yiyexy commented 4 weeks ago

你好，你们的数据集似乎需要gpt来辅助评分，我指定评分的模型为gpt-4o和gpt-4的最终分数不一致。