-
### Reminder
- [X] I have read the README and searched the existing issues.
### Reproduction
ModuleNotFoundError: No module named 'optimum'
但是我的python环境里面是有这个包的。
deepspeed --num_gpus 3 src/train_…
-
Single gpu(48GB) can't support qwen1.5-72B-awq-int4 to be converted to .pt format, which will trigger an OOM error. How can I use multi gpus in qwen2/quantize.py?
-
HOST安装的步骤
conda create -n llm python=3.11
conda activate llm
# below command will install intel_extension_for_pytorch==2.1.10+xpu as default
pip install --pre --upgrade ipex-llm[xpu] --extra-index…
-
我的vllm部署命令
```py
python -m vllm.entrypoints.openai.api_server \
--model=/usr/local/models/Qwen/Qwen1.5-7B-Chat \
--trust-remote-code \
--served-model-name qwmiic \
--host 127.0.0…
-
### Reminder
- [X] I have read the README and searched the existing issues.
### Reproduction
这是我微调时使用的参数
```shell
CUDA_VISIBLE_DEVICES=1 python src/train_bash.py \
--stage sft \
-…
-
模型:Qwen1.5-110B-Chat-AWQ
执行命令
CUDA_VISIBLE_DEVICES=1,6 swift infer --model_type qwen1half-110b-chat-awq --infer_backend vllm --max_model_len 8192 --model_id_or_path /share/models/Qwen1.5-110B-Cha…
-
### Describe the bug
源码安装 8卡4090 运行模型, replica=2 第一个正常 第二个报错
修改replica=1, 可以运行第一个模型, 再次运行时还是报错
### To Reproduce
To help us to reproduce this bug, please provide information below:
1. Your P…
-
根据 qwen1.5 提供的几个AWQ 量化后的模型,我看模型权重是 torch.int32 的?怎么这么大而不是 int8 呢?实际计算的时候也是 int32 吗(我在 linear 层里面看到使用的是 torch.float16)我看module的w_bit =4,w_bit=4 怎么会是 int32?运行的时候为什么建议我使用 dtype=float16?vllm 部署如果不指定 dtype…
-
Hi.
I saw the model files has been updated today.
Can you tell me what has been updated?
Thanks!
-
### Reminder
- [X] I have read the README and searched the existing issues.
### Reproduction
硬件环境:
4 * RTX3090:(这个环境我已经运行过Qwen1.5-72B-Chat-GTPQ-INT4(即Qwen72B的INT4量化版)
这是我调用Web脚本:
#!/bin/bash
…