Open OneStepAndTwoSteps opened 1 year ago
你可以看一看perf的lora实现 https://github.com/huggingface/peft/blob/main/src/peft/tuners/lora.py#L276 ,想要减少推理时间根据lora论文里的说明需要把BA的积加进权重矩阵里。在perf的实现里这一步操作似乎与一个叫 merge_adapter 的方法有关,但是他们似乎没有在eval处理里加上,因此你可以尝试自己调用一下。 另外perf现在GitHub上main分支里lora的实现与0.2.0版本上的实现有较大差别,可以尝试更新一下perf。
您好,我在使用您simple_thu_chatglm6b的代码进行微调的过程中,发现,最后进行预测时:
text ="为什么冰红茶和柠檬茶的味道一样?"
with torch.autocast("cuda"): res, history = model.chat(tokenizer=tokenizer, query=text,max_length=300) print(res)
得到返回结果的时间很长,请问这可能是什么原因导致的呢?您有解决方案吗