ztxz16 / fastllm

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.23k stars 325 forks source link

模型转换的时候是不是不能用量化过的模型 #437

Open shum-elli opened 4 months ago

shum-elli commented 4 months ago

用的HuatuoII的模型,原版Hutuo II模型6b的参数版本基于baichuan2,用baichuan2的模型可以直接量化,但是官方量化后的版本貌似不能转换了,会报错,官方量化之后的int4的版本相比fastllm直接量化要小不少,可以有什么解决方案吗

TylunasLi commented 4 months ago

目前仅支持少数几个模型(chatglm-6b-int4、chatglm2-6b-int4)通过llm.from_hf()的形式进行转换。