Yuliang-Liu / Monkey

【CVPR 2024 Highlight】Monkey (LMM): Image Resolution and Text Label Are Important Things for Large Multi-modal Models
MIT License
1.82k stars 128 forks source link

关于monkey图像处理的问题 #135

Closed cpystan closed 1 month ago

cpystan commented 1 month ago

原始Qwen-vl经过vit和adapter得到的是一个256长度序列。 在monkey加入了多视野后,得到的是一个256*5的长度序列。请问下你们做了什么修改使得qwen-vl能支持1280的视觉长度序列呢? 因为我试图改变输入图像的大小,得到的长度序列不再是1280。但是tokenizer在编码<\img>的时候,会将其自动转化为一个1280的长度序列。最终导致forward报错无法进行。 你们的工作非常棒。我将十分感谢如果你们能抽空回答我的问题!

echo840 commented 1 month ago

image 您好,您可以修改这里的代码。

image 对应的处理代码在这个位置,他会把imgurl pad到指定长度。

cpystan commented 1 month ago

非常感谢你们的回答!解决了我的问题。