infer的速度很慢 - Githubissues

yuanzhoulvpi2017 / zero_nlp

中文nlp解决方案(大模型、数据、模型、训练、推理)

MIT License

2.95k stars 363 forks source link

infer的速度很慢 #66

Open OneStepAndTwoSteps opened 1 year ago

OneStepAndTwoSteps commented 1 year ago

您好，我在使用您simple_thu_chatglm6b的代码进行微调的过程中，发现，最后进行预测时：

text ="为什么冰红茶和柠檬茶的味道一样？"

with torch.autocast("cuda"): res, history = model.chat(tokenizer=tokenizer, query=text,max_length=300) print(res)

得到返回结果的时间很长，请问这可能是什么原因导致的呢？您有解决方案吗

benzenesulfonic-acid commented 1 year ago

你可以看一看perf的lora实现 https://github.com/huggingface/peft/blob/main/src/peft/tuners/lora.py#L276 ，想要减少推理时间根据lora论文里的说明需要把BA的积加进权重矩阵里。在perf的实现里这一步操作似乎与一个叫 merge_adapter 的方法有关，但是他们似乎没有在eval处理里加上，因此你可以尝试自己调用一下。另外perf现在GitHub上main分支里lora的实现与0.2.0版本上的实现有较大差别，可以尝试更新一下perf。