yuanzhoulvpi2017 / zero_nlp

中文nlp解决方案(大模型、数据、模型、训练、推理)
MIT License
2.95k stars 363 forks source link

infer的速度很慢 #66

Open OneStepAndTwoSteps opened 1 year ago

OneStepAndTwoSteps commented 1 year ago

您好,我在使用您simple_thu_chatglm6b的代码进行微调的过程中,发现,最后进行预测时:

text ="为什么冰红茶和柠檬茶的味道一样?"

with torch.autocast("cuda"): res, history = model.chat(tokenizer=tokenizer, query=text,max_length=300) print(res)

得到返回结果的时间很长,请问这可能是什么原因导致的呢?您有解决方案吗

benzenesulfonic-acid commented 1 year ago

你可以看一看perf的lora实现 https://github.com/huggingface/peft/blob/main/src/peft/tuners/lora.py#L276 ,想要减少推理时间根据lora论文里的说明需要把BA的积加进权重矩阵里。在perf的实现里这一步操作似乎与一个叫 merge_adapter 的方法有关,但是他们似乎没有在eval处理里加上,因此你可以尝试自己调用一下。 另外perf现在GitHub上main分支里lora的实现与0.2.0版本上的实现有较大差别,可以尝试更新一下perf。