Closed wangyu1997 closed 1 year ago
支持Exllama-HF的方式加载4bit的量化模型 由于适配的是hf的model,并非原生的exllama,精度会略有损失
目前只支持4bit的量化模型,经过测试,infer速度有较大提升
加载方式与AutoGPTQ类似
python exllama_infer.py --model_path ${MODEL_PATH}
其中MODEL_PATH为autogptq量化生成的4bit model目录(包括tokenizer等信息)
需要安装exllama_lib
pip install exllama_lib@git+https://github.com/taprosoft/exllama.git
支持Exllama-HF的方式加载4bit的量化模型 由于适配的是hf的model,并非原生的exllama,精度会略有损失
目前只支持4bit的量化模型,经过测试,infer速度有较大提升
加载方式与AutoGPTQ类似
python exllama_infer.py --model_path ${MODEL_PATH}
其中MODEL_PATH为autogptq量化生成的4bit model目录(包括tokenizer等信息)
需要安装exllama_lib
pip install exllama_lib@git+https://github.com/taprosoft/exllama.git