Yuliang-Liu / Monkey

【CVPR 2024 Highlight】Monkey (LMM): Image Resolution and Text Label Are Important Things for Large Multi-modal Models
MIT License
1.82k stars 128 forks source link

vizwiz的准确率仅有37.62?表中的结果为61.2?QwenVL是35.2,请问是数据填写错误吗? #91

Closed Leavelk closed 5 months ago

Leavelk commented 5 months ago

我使用您给的权重进行测试,得到的vizwiz的准确率为37.62,远低于表中的61.2

echo840 commented 5 months ago

您的测试里面是否包含这个prompt呢? image

Leavelk commented 5 months ago

我的问题,sorry!

echo840 commented 5 months ago

image 如果您使用下面的prompt 甚至能取得更好的结果,准确率达到68.37 image

Leavelk commented 5 months ago

是的,我得到了68.33的准确率 prompt = '{} {} When the provided information is insufficient, respond with "unanswerable". Answer: ' 得到的是68.33 prompt = '{} {} When the provided information is insufficient, respond with "unanswerable". Answer:' 得到的是59.48 prompt = '{} {} When the provided information is insufficient, respond with "Unanswerable". Answer:' 得到的是61.1 这是不是说明结果不够鲁棒,prompt中的空格会带来如此大的性能改变?

echo840 commented 5 months ago

其实是我们训练的时候是prompt = '{} {} When the provided information is insufficient, respond with "unanswerable". Answer: ' 这种格式的,有加上空格,测试的时候有点小疏忽没有加上,需要和训练的时候保持一致。 另外“冒号”后面如果不加上空格有可能会和后面的字符一起编码成别的token,加上空格和不加上空格tokenizer编码得到的input_ids是不一样的。qwenvl加上和删去空格,也会有较大差距。

Leavelk commented 5 months ago

谢谢,我查看了训练数据,确实如此,很惊人的68.3准确率,我想确认一下这是否是目前所有MLLM中的top1(至少我目前见到的是)此外,貌似没有scienceQA的测试代码。您能否按照现在的prompt重新给出Table2和Table3的实验结果(因为资源有限,我无法直接复现),期待您的最新结果。非常棒的工作!!!非常惊人的结果!

echo840 commented 5 months ago

您好,感谢您的关注,过段时间我们会考虑更新。