TigerResearch / TigerBot

TigerBot: A multi-language multi-task LLM
https://www.tigerbot.com
Apache License 2.0
2.24k stars 194 forks source link

支持Exllama的方式加载TigerBot-4bit量化model #86

Closed wangyu1997 closed 1 year ago

wangyu1997 commented 1 year ago

支持Exllama-HF的方式加载4bit的量化模型 由于适配的是hf的model,并非原生的exllama,精度会略有损失

目前只支持4bit的量化模型,经过测试,infer速度有较大提升

加载方式与AutoGPTQ类似

python exllama_infer.py --model_path ${MODEL_PATH}

其中MODEL_PATH为autogptq量化生成的4bit model目录(包括tokenizer等信息)

需要安装exllama_lib

pip install exllama_lib@git+https://github.com/taprosoft/exllama.git