Closed suntea233 closed 2 days ago
但是训练时却又是按照router分配权重,这种推理时与训练时不一致会导致模型性能变差吗?
您好,谢谢您的提问!您的理解是对的,在推理是不是把LoRA的权重融入进pretrained model,因为存在router,所以需要计算每个experts的权重。因此,模型的性能保持。谢谢!
哦哦哦,那就是推理时与训练时保持一致是吗,没有执行merge的操作?
是的!
好的好的,谢谢!
但是训练时却又是按照router分配权重,这种推理时与训练时不一致会导致模型性能变差吗?