Closed cpystan closed 1 month ago
原始Qwen-vl经过vit和adapter得到的是一个256长度序列。 在monkey加入了多视野后,得到的是一个256*5的长度序列。请问下你们做了什么修改使得qwen-vl能支持1280的视觉长度序列呢? 因为我试图改变输入图像的大小,得到的长度序列不再是1280。但是tokenizer在编码<\img>的时候,会将其自动转化为一个1280的长度序列。最终导致forward报错无法进行。 你们的工作非常棒。我将十分感谢如果你们能抽空回答我的问题!
您好,您可以修改这里的代码。
对应的处理代码在这个位置,他会把imgurl pad到指定长度。
非常感谢你们的回答!解决了我的问题。
原始Qwen-vl经过vit和adapter得到的是一个256长度序列。 在monkey加入了多视野后,得到的是一个256*5的长度序列。请问下你们做了什么修改使得qwen-vl能支持1280的视觉长度序列呢? 因为我试图改变输入图像的大小,得到的长度序列不再是1280。但是tokenizer在编码<\img>的时候,会将其自动转化为一个1280的长度序列。最终导致forward报错无法进行。 你们的工作非常棒。我将十分感谢如果你们能抽空回答我的问题!