[BUG] <title>模型不能正确分辨出输入图像的顺序

我在运行脚本中输入了几张图像，我的'text':promt 无论使用”第一张图片“、”图片2“、”picture 3“都无法使模型get到我想让他看的那张图像，不知道使我的（操作/提示词）不对，还是说模型本身就没办法对图像的顺序做出区分。

在示例中，模型对重庆和北京的比较看起来使可以区分输入图像的顺序的，如果您知道我哪里出了问题或者您也发现chat模型存在同样的问题，希望能够不吝赐教！

No response

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA (`python -c 'import torch; print(torch.version.cuda)'`):

No response

QwenLM / Qwen-VL