THUDM / CogVLM

a state-of-the-art-level open visual language model | 多模态预训练模型
Apache License 2.0
6.12k stars 417 forks source link

升级到 vlm2后,低像素图片识别效果明显变低,甚至不如老的 vm #525

Open schild opened 2 months ago

schild commented 2 months ago

Feature request / 功能建议

建议对低像素识别增加优化

Motivation / 动机

入体,同一张图片,通义可以正确识别关键信息,vlm1 效果好于通义。现在升级到 vlm2后,很多信息都识别不了

Your contribution / 您的贡献

入体