模型转换的时候是不是不能用量化过的模型

ztxz16 / fastllm

纯c++的全平台llm加速库，支持python调用，chatglm-6B级模型单卡可达10000+token / s，支持glm, llama, moss基座，手机端流畅运行

Apache License 2.0

3.23k stars 325 forks source link

Open shum-elli opened 4 months ago

shum-elli commented 4 months ago

用的HuatuoII的模型，原版Hutuo II模型6b的参数版本基于baichuan2，用baichuan2的模型可以直接量化，但是官方量化后的版本貌似不能转换了，会报错，官方量化之后的int4的版本相比fastllm直接量化要小不少，可以有什么解决方案吗

TylunasLi commented 4 months ago

目前仅支持少数几个模型（chatglm-6b-int4、chatglm2-6b-int4）通过llm.from_hf()的形式进行转换。