Closed xiaokai01 closed 11 months ago
已有社区开源了量化后的模型:https://huggingface.co/TheBloke/deepseek-coder-33B-instruct-GPTQ 你可以参考一下
原始版本:一个参数占两个字节,33B 就是 66 GB,再加上运行时 KV cache 占的空间,单卡的话得 80GB 的显卡才能跑;如果做流水并行/张量并行基本上可以线性减少。 量化版本:参考 the bloke 量化的结果。差不多量化到几个 bit 显存就对应节省多少。
已有社区开源了量化后的模型:https://huggingface.co/TheBloke/deepseek-coder-33B-instruct-GPTQ 你可以参考一下