Open daydayup-zyn opened 1 year ago
微调后合并并量化int4模型,直接对新模型进行推理,推理速度明显慢于官方int4模型。 但是如果是把微调的pytorch_model.bin替换官方的pytorch_model.bin文件后,再推理,速度就和官方的是差不多的。 这是哪块儿的问题呢?是得需要修再修改新模型的其他文件吗?
使用官方int4中的quantization.py替换一下,推理性能也会提升
微调后合并并量化int4模型,直接对新模型进行推理,推理速度明显慢于官方int4模型。 但是如果是把微调的pytorch_model.bin替换官方的pytorch_model.bin文件后,再推理,速度就和官方的是差不多的。 这是哪块儿的问题呢?是得需要修再修改新模型的其他文件吗?