关于monkey图像处理的问题

cpystan commented 1 month ago

原始Qwen-vl经过vit和adapter得到的是一个256长度序列。在monkey加入了多视野后，得到的是一个256*5的长度序列。请问下你们做了什么修改使得qwen-vl能支持1280的视觉长度序列呢？因为我试图改变输入图像的大小，得到的长度序列不再是1280。但是tokenizer在编码<\img>的时候，会将其自动转化为一个1280的长度序列。最终导致forward报错无法进行。你们的工作非常棒。我将十分感谢如果你们能抽空回答我的问题！

echo840 commented 1 month ago

您好，您可以修改这里的代码。

对应的处理代码在这个位置，他会把imgurl pad到指定长度。

cpystan commented 1 month ago

非常感谢你们的回答！解决了我的问题。

Yuliang-Liu / Monkey

关于monkey图像处理的问题 #135