Closed Leavelk closed 5 months ago
您的测试里面是否包含这个prompt呢?
我的问题,sorry!
如果您使用下面的prompt 甚至能取得更好的结果,准确率达到68.37
是的,我得到了68.33的准确率 prompt = '{} {} When the provided information is insufficient, respond with "unanswerable". Answer: ' 得到的是68.33 prompt = '{} {} When the provided information is insufficient, respond with "unanswerable". Answer:' 得到的是59.48 prompt = '{} {} When the provided information is insufficient, respond with "Unanswerable". Answer:' 得到的是61.1 这是不是说明结果不够鲁棒,prompt中的空格会带来如此大的性能改变?
其实是我们训练的时候是prompt = '{} {} When the provided information is insufficient, respond with "unanswerable". Answer: ' 这种格式的,有加上空格,测试的时候有点小疏忽没有加上,需要和训练的时候保持一致。 另外“冒号”后面如果不加上空格有可能会和后面的字符一起编码成别的token,加上空格和不加上空格tokenizer编码得到的input_ids是不一样的。qwenvl加上和删去空格,也会有较大差距。
谢谢,我查看了训练数据,确实如此,很惊人的68.3准确率,我想确认一下这是否是目前所有MLLM中的top1(至少我目前见到的是)此外,貌似没有scienceQA的测试代码。您能否按照现在的prompt重新给出Table2和Table3的实验结果(因为资源有限,我无法直接复现),期待您的最新结果。非常棒的工作!!!非常惊人的结果!
您好,感谢您的关注,过段时间我们会考虑更新。
我使用您给的权重进行测试,得到的vizwiz的准确率为37.62,远低于表中的61.2