微调后推理性能问题

shuxueslpi / chatGLM-6B-QLoRA

使用peft库，对chatGLM-6B/chatGLM2-6B实现4bit的QLoRA高效微调，并做lora model和base model的merge及4bit的量化（quantize）。

350 stars 46 forks source link

Open daydayup-zyn opened 11 months ago

daydayup-zyn commented 11 months ago

微调后合并并量化int4模型，直接对新模型进行推理，推理速度明显慢于官方int4模型。但是如果是把微调的pytorch_model.bin替换官方的pytorch_model.bin文件后，再推理，速度就和官方的是差不多的。这是哪块儿的问题呢？是得需要修再修改新模型的其他文件吗？

daydayup-zyn commented 11 months ago

使用官方int4中的quantization.py替换一下，推理性能也会提升