关于长序列任务上的讨论

Kobe-Zed commented 7 months ago

感谢作者优秀的工作！想请教一下关于O-LoRA在更challenging的长序列任务上（large number of tasks）性能表现与PerTaskFT和MTL有差距的原因可能有哪些？期待您的回复！

cmnfriend commented 7 months ago

这是我的理解😊：一方面，随着任务序列的增长，旧任务的更新参数所张成的空间也越来越大，其中可能包含了某些有利于当前任务学习的子空间，而正则化约束会让当前任务的训练尽量不发生在这样的子空间中。因此为了保持之前任务的性能，可能会需要牺牲一些当前任务的性能。另一方面，由于我们的正则化约束是软约束，不能完全保证正交（完全正交可能也不利于训练），对于序列中的某些任务只能起到减缓遗忘的作用，随着序列变长遗忘累积就会比较明显。除了方法因素以外，还有数据集因素，比如长序列中A任务很容易受到B任务影响（天生的challenging😂）等等。

Kobe-Zed commented 7 months ago

好的，非常感谢您的回复！

cmnfriend / O-LoRA

关于长序列任务上的讨论 #11