Open Edisonwei54 opened 1 month ago
@WoosukKwon How can I solve this problem
Current punica kernel can't process h_out=3424
, you can set -tensor-parallel-size 2
to avoid this error
Current punica kernel can't process
h_out=3424
, you can set-tensor-parallel-size 2
to avoid this error
Thanks, It can work now, but I still want to use all gpu, because the memory is not enough...
您好,我在加载baichuan2-13b时候遇到相似问题,在0.3.3与0.4版本均存在,RuntimeError: No suitable kernel. h_in=32 h_out=15360 dtype=Float out_dtype=BFloat16
您好,我在加载baichuan2-13b时候遇到相似问题,在0.3.3与0.4版本均存在,RuntimeError: No suitable kernel. h_in=32 h_out=15360 dtype=Float out_dtype=BFloat16
当前的vllm版本中,punica的算子不支持15360,我之前的PR没有注意到这点,不好意思。 您可以在 https://github.com/vllm-project/vllm/blob/main/csrc/punica/bgmv/bgmv_config.h#L48 添加
f(in_T, out_T, W_T, narrow, 15360) \
然后重新编译vllm(0.4.0的版本) 如果测试没有问题的话,您也可以提个PR来解决这个BUG
是的,我也是这样添加的,测试没有问题,在0.3.3与0.4中均没有问题
是的,我也是这样添加的,测试没有问题,在0.3.3与0.4中均没有问题
hi,您可以提个PR解决这个问题吗
我看您有不断提交pr,您可以帮忙在下次提交pr把这部分合并上去,我就不专门提pr了!另外问下,在0.4版本与您之前提交qkv的pr合并了之外,还做了哪些改动,比如我看到下面这部分,以便我选择是否需要更新到0.4版本,因为我基于0.3.3重写了ModelRunner,worker到LLMEngine部分
@classmethod def can_replace_layer(cls, source_layer: nn.Module, lora_config: LoRAConfig, packed_modules_list: List, model_config: Optional[PretrainedConfig]) -> bool:
@nlp-learner 好的。
此外,查看版本间的改动及差异,可以在d对应仓库网址后添加compare
做比较: https://github.com/vllm-project/vllm/compare
@jeejeelee 哥,我遇到了一个bug。 不知道怎么解决了 环境: A10的GPU卡 nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2023 NVIDIA Corporation Built on Mon_Apr__3_17:16:06_PDT_2023 Cuda compilation tools, release 12.1, V12.1.105 Build cuda_12.1.r12.1/compiler.32688072_0
@jeejeelee 哥,我遇到了一个bug。 不知道怎么解决了 环境: A10的GPU卡 nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2023 NVIDIA Corporation Built on Mon_Apr__3_17:16:06_PDT_2023 Cuda compilation tools, release 12.1, V12.1.105 Build cuda_12.1.r12.1/compiler.32688072_0
@jeejeelee 搞定了,我增加了640的算子
我在chinese-alpaca-llama2-7B遇到此问题,是否有不重新编译的方法
h_in=16 h_out=3424
+1 for this . Qwen-14B with lora rank=16.
vllm 0.4.2 version not fixed.
Current punica kernel can't process
h_out=3424
, you can set-tensor-parallel-size 2
to avoid this error
@jeejeelee can you support this on 8 gpus?
Your current environment
🐛 Describe the bug