Closed jrd77 closed 9 months ago
我这边测试一切正常,没有遇到你的这个问题,请确保你的模型下载没有缺失
- OS: ubuntu
- GPU: A800 80G
- Python: Python 3.10.13
- Transformers: transformers 4.35.0
- PyTorch: pytorch 2.0.1
- CUDA (`python -c 'import torch; print(torch.version.cuda)'`) 11.8:
- model: 34B-chat-4bits, 6B-chat-4bits, 6B-chat
后续我直接使用huggingFace里面的GPTQ量化的模型,就没问题了,猜测可能是官方使用awq量化,我的显卡支持有问题 'TheBloke/Yi-34B-Chat-GPTQ', 'https://hf-mirror.com/TheBloke/SUS-Chat-34B-GPTQ'
是的 autoawq不支持v100
Yi-Vl-34B openai服务,第一次请求正常,紧跟着第二次请求就会报这个错。
- OS: ubuntu
- GPU: H800 80G
- Python: Python 3.8.10
- Transformers: transformers 4.37.2
- PyTorch: pytorch 2.2.1
- CUDA (`python -c 'import torch; print(torch.version.cuda)'`) 12.2:
- model: Yi-VL-34B
@Yimi81
@zhengxingmao 有后续吗?我也被这个问题卡住了
@limaofeng 这个Bug已经修复了啊 你是最新的代码吗,如果还有问题你可以使用LMDeploy来部署openai风格的yi-vl api
我也遇到了同样的问题,显然问题并没有被解决,我也是第二次调用发生同样的错误…… @Yimi81
+1 @magicum-sidus
The first call works well but the second call shows this error while running - RuntimeError: probability tensor contains either
inf,
nanor element < 0
It does run though and give an output so not sure what's happening
运行环境:
运行demo 报错 RuntimeError: probability tensor contains either
inf
,nan
or element < 0运行代码:
将运行代码中do_sample=False后又输出乱码
mamba环境 env.yml: