OpenBMB / MiniCPM-V

MiniCPM-V 2.6: A GPT-4V Level MLLM for Single Image, Multi Image and Video on Your Phone
Apache License 2.0
12.76k stars 894 forks source link

[BUG] 模型进行图片识别输出进入循环 #596

Open Jiafan opened 2 months ago

Jiafan commented 2 months ago

是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?

该问题是否在FAQ中有解答? | Is there an existing answer for this in FAQ?

当前行为 | Current Behavior

使用模型:OpenBMB/MiniCPM-V-2_6-int4
识别识别一张营业执照照片,经营范围部分内容 中文本识别一半后,开始重复输出同一个词汇

2731727318181_ pic

期望行为 | Expected Behavior

希望修复,或者有规避的方法

复现方法 | Steps To Reproduce

  1. Centos7 , N 卡
  2. 参照 https://modelscope.cn/models/OpenBMB/MiniCPM-V-2_6 进行安装,demo 也参照该地址文档
  3. 上传该营业执照照片,并让其请识别出图片中的内容,
  4. 得到如图的回复
  5. 原始营业执照如图:

    2741727318442_ pic

  6. 得到结果 2731727318181_ pic

运行环境 | Environment

- OS: Ubuntu 20.04
- Python: 3.10.12
- Transformers: 4.40.0
- PyTorch: 2.1.2
- CUDA : 12.1

备注 | Anything else?

模型使用的是 OpenBMB/MiniCPM-V-2_6-int4

LDLINGLINGLING commented 2 months ago

请问您的这个问题是偶发还是经常出现,目前可以考虑增加重复惩罚的参数进行。