Closed yiyexy closed 1 month ago
你好,我在使用lmms-eval仓库对该测试集进行评估时,遇到了一下问题。 使用gpt-4,我的平均分数为23;但是该api有最大请求数量限制,我在进行这一次的评分之中,可能有部分样本超出了限制而请求gpt失败。 随后我更换为gpt-4o,最终的平均分数为25+ 我想请问直接使用gpt-4o进行评估是否有问题?
你好,我再确认一下,请问你说的是evaluation script,不是被evaluate的model对吧?
“我想请问直接使用gpt-4o进行评估是否有问题?” -- 不会有什么问题。
你好,你们的数据集似乎需要gpt来辅助评分,我指定评分的模型为gpt-4o和gpt-4的最终分数不一致。
你好,我在使用lmms-eval仓库对该测试集进行评估时,遇到了一下问题。 使用gpt-4,我的平均分数为23;但是该api有最大请求数量限制,我在进行这一次的评分之中,可能有部分样本超出了限制而请求gpt失败。 随后我更换为gpt-4o,最终的平均分数为25+ 我想请问直接使用gpt-4o进行评估是否有问题?