Closed lx0126z closed 10 months ago
如题,会支持vllm吗?会有更快的推理速度。 https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/models/yi.py
我尝试参照此改写,发现有num_kv_heads 和 share_kv_heads_num 的差异,我尝试改写加载参数时会报错。
他官方的添加方式是这个,https://docs.vllm.ai/en/latest/models/adding_model.html
YAYI和YAYI2都已成功适配vllm加速,我们不久会把代码提交到vllm仓库。
暂未在vllm的Pull requests中找到,期待您的提交
如题,会支持vllm吗?会有更快的推理速度。 https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/models/yi.py
我尝试参照此改写,发现有num_kv_heads 和 share_kv_heads_num 的差异,我尝试改写加载参数时会报错。
他官方的添加方式是这个,https://docs.vllm.ai/en/latest/models/adding_model.html