Closed lxb0425 closed 4 months ago
对qwen2-72b-instruct 训练完成后 并且量化gptq-4位,使用以下命令部署没有问题,问答也ok CUDA_VISIBLE_DEVICES=0,1 API_PORT=7864 llamafactory-cli api \ --model_name_or_path /workspace/chat-1.1 \ --template qwen \ --infer_backend vllm \ --vllm_enforce_eager true 但是想支持长文本输入,根据qwen2官方加了配置如下
但还是报错
其他配置如下 尝试把generation_config.json里面的max-new-tokens改成20480 ,但是请求里面的max-tokens就变成200了
No response
vllm_maxlen: 8192
Reminder
System Info
对qwen2-72b-instruct 训练完成后 并且量化gptq-4位,使用以下命令部署没有问题,问答也ok CUDA_VISIBLE_DEVICES=0,1 API_PORT=7864 llamafactory-cli api \ --model_name_or_path /workspace/chat-1.1 \ --template qwen \ --infer_backend vllm \ --vllm_enforce_eager true 但是想支持长文本输入,根据qwen2官方加了配置如下
但还是报错
Reproduction
其他配置如下 尝试把generation_config.json里面的max-new-tokens改成20480 ,但是请求里面的max-tokens就变成200了
Expected behavior
No response
Others
No response