QwenLM / Qwen-VL

The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud.
Other
4.27k stars 327 forks source link

[BUG] <title>模型不能正确分辨出输入图像的顺序 #392

Open zhangye0402 opened 1 month ago

zhangye0402 commented 1 month ago

是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?

该问题是否在FAQ中有解答? | Is there an existing answer for this in FAQ?

当前行为 | Current Behavior

image

我在运行脚本中输入了几张图像,我的'text':promt 无论使用”第一张图片“、”图片2“、”picture 3“都无法使模型get到我想让他看的那张图像,不知道使我的(操作/提示词)不对,还是说模型本身就没办法对图像的顺序做出区分。

期望行为 | Expected Behavior

在示例中,模型对重庆和北京的比较看起来使可以区分输入图像的顺序的,如果您知道我哪里出了问题或者您也发现chat模型存在同样的问题,希望能够不吝赐教!

复现方法 | Steps To Reproduce

No response

运行环境 | Environment

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA (`python -c 'import torch; print(torch.version.cuda)'`):

备注 | Anything else?

No response