OpenGVLab / InternVL

[CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型
https://internvl.readthedocs.io/en/latest/
MIT License
5.3k stars 417 forks source link

InternVL2-40B模型出现输出混乱的现象 #367

Open WangJianQ-cmd opened 1 month ago

WangJianQ-cmd commented 1 month ago

启动方式: lmdeploy serve api_server /root/wangjianqiang/InternLM/OpenGVLab/InternVL2-40B-1/ --server-name 0.0.0.0 --server-port 9014 --model-name internVL --tp 4 --log-level INFO --backend turbomind --chat-template /root/wangjianqiang/InternLM/OpenGVLab/chat_template.json

调用方式使用的openai方式

输出结果: 总总总总总总总总总总总总总总总总总总总总总 specially subscribers subscribers subscribers temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper temper(后面还有很长一串)

是模型出现问题了吗?还是配置不正确

SeanWu999 commented 1 month ago

老哥,你的40B模型部署需要多少显存

Xu-Jianjun commented 1 month ago

我也遇见了这个问题,使用的是lmdeploy pipeline调用方式。换到26B的模型就可以正常输出

Czi24 commented 1 month ago

老哥,你的40B模型部署需要多少显存

老哥,可以看看这里 https://github.com/Czi24/Awesome-MLLM-LLM-Colab/blob/master/MLLM/InternVL-colab/InternVL.md

wciq1208 commented 1 month ago

老哥,你的40B模型部署需要多少显存

老哥,可以看看这里 https://github.com/Czi24/Awesome-MLLM-LLM-Colab/blob/master/MLLM/InternVL-colab/InternVL.md

问一下这里面的显存是模型刚加载好的显存还是推理达到max_tokens时的显存,大概算了一下是刚加载好的显存?