shuxueslpi / chatGLM-6B-QLoRA

使用peft库,对chatGLM-6B/chatGLM2-6B实现4bit的QLoRA高效微调,并做lora model和base model的merge及4bit的量化(quantize)。
350 stars 46 forks source link

微调后推理性能问题 #44

Open daydayup-zyn opened 11 months ago

daydayup-zyn commented 11 months ago

微调后合并并量化int4模型,直接对新模型进行推理,推理速度明显慢于官方int4模型。 但是如果是把微调的pytorch_model.bin替换官方的pytorch_model.bin文件后,再推理,速度就和官方的是差不多的。 image 这是哪块儿的问题呢?是得需要修再修改新模型的其他文件吗?

daydayup-zyn commented 11 months ago

使用官方int4中的quantization.py替换一下,推理性能也会提升 image