vizwiz的准确率仅有37.62？表中的结果为61.2?QwenVL是35.2，请问是数据填写错误吗？

Yuliang-Liu / Monkey

【CVPR 2024 Highlight】Monkey (LMM): Image Resolution and Text Label Are Important Things for Large Multi-modal Models

MIT License

1.82k stars 128 forks source link

vizwiz的准确率仅有37.62？表中的结果为61.2?QwenVL是35.2，请问是数据填写错误吗？ #91

Closed Leavelk closed 5 months ago

Leavelk commented 5 months ago

我使用您给的权重进行测试，得到的vizwiz的准确率为37.62，远低于表中的61.2

echo840 commented 5 months ago

您的测试里面是否包含这个prompt呢？

Leavelk commented 5 months ago

我的问题，sorry！

echo840 commented 5 months ago

如果您使用下面的prompt 甚至能取得更好的结果，准确率达到68.37

Leavelk commented 5 months ago

是的，我得到了68.33的准确率 prompt = '{} {} When the provided information is insufficient, respond with "unanswerable". Answer: ' 得到的是68.33 prompt = '{} {} When the provided information is insufficient, respond with "unanswerable". Answer:' 得到的是59.48 prompt = '{} {} When the provided information is insufficient, respond with "Unanswerable". Answer:' 得到的是61.1 这是不是说明结果不够鲁棒，prompt中的空格会带来如此大的性能改变？

echo840 commented 5 months ago

其实是我们训练的时候是prompt = '{} {} When the provided information is insufficient, respond with "unanswerable". Answer: ' 这种格式的，有加上空格，测试的时候有点小疏忽没有加上，需要和训练的时候保持一致。另外“冒号”后面如果不加上空格有可能会和后面的字符一起编码成别的token，加上空格和不加上空格tokenizer编码得到的input_ids是不一样的。qwenvl加上和删去空格，也会有较大差距。

Leavelk commented 5 months ago

谢谢，我查看了训练数据，确实如此，很惊人的68.3准确率，我想确认一下这是否是目前所有MLLM中的top1（至少我目前见到的是）此外，貌似没有scienceQA的测试代码。您能否按照现在的prompt重新给出Table2和Table3的实验结果（因为资源有限，我无法直接复现），期待您的最新结果。非常棒的工作！！！非常惊人的结果！

echo840 commented 5 months ago

您好，感谢您的关注，过段时间我们会考虑更新。