Closed BigWhiteFox closed 5 months ago
Please wait for lmdeploy v0.4.2.
Please wait for lmdeploy v0.4.2.
lmdeploy serve api_server \ /root/models/InternVL-Chat-V1-5 \ --model-format hf \ --quant-policy 4 \ --server-name 0.0.0.0 \ --server-port 23333 \
这个--quant-policy 4是不是也要等0.4.2? 我修改了一下发显存占用和不量化一样的
这个不用等。一样的是因为,我们是按照激进的显存分配策略执行的。可以结合 --cache-max-entry-count
参数一起设置,如果这个参数不变,那么即使用的 kv cache 的量化,也会有多少显存用多少。可以设置一个小一点的数,比如 0.4 这种。
这个不用等。一样的是因为,我们是按照激进的显存分配策略执行的。可以结合
--cache-max-entry-count
参数一起设置,如果这个参数不变,那么即使用的 kv cache 的量化,也会有多少显存用多少。可以设置一个小一点的数,比如 0.4 这种。
感谢解答 经实验加入--cache-max-entry-count参数设置是可以实现要求。
Checklist
Describe the bug
w4a16量化和w8a8量化InternVL-Chat-V1-5模型均报错,lmdeploy lite 工具无法识别 InternVL-Chat-V1-5 模型的配置类。
Reproduction
lmdeploy lite smooth_quant /root/models/InternVL-Chat-V1-5 --work-dir /root/models/InternVL-Chat-V1-5-w8a8
lmdeploy lite auto_awq \ /root/models/InternVL-Chat-V1-5 \ --calib-dataset 'ptb' \ --calib-samples 128 \ --calib-seqlen 1024 \ --w-bits 4 \ --w-group-size 128 \ --work-dir /root/models/InternVL-Chat-V1-5-w4a16-4bit
Environment
Error traceback