Open wciq1208 opened 2 weeks ago
我用vllm进行部署,命令如下
vllm serve /hestia/model/MiniCPM3-4B --trust-remote-code --max-model-len 12288 --num-gpu-blocks-override 768 --port 8001 --max-num-seqs 32 --served-model-name minicpm --swap-space 0
12288的上下文长度就消耗了22G的显存,我看readme里提到了LLM x MapReduce可以低显存处理无限上下文,请问要如何开启
同问,有点超预期了。看到4B,我想当然就是8G显存。没想到22G
你好,这里提到的长上下文都是要消耗显存的,也就是说,4b模型不量化的情况下,占用显存在8G左右,但是上下文的增长将导致额外的显存占用。并不能在8g内存下,使用无限长上下文。
你好,当前代码还不包括MapReduce的功能,MiniCPM3 x MapReduce 的代码将在一周内开源
Feature request / 功能建议
我用vllm进行部署,命令如下
12288的上下文长度就消耗了22G的显存,我看readme里提到了LLM x MapReduce可以低显存处理无限上下文,请问要如何开启