cmnfriend / O-LoRA

MIT License
126 stars 12 forks source link

关于长序列任务上的讨论 #11

Open Kobe-Zed opened 7 months ago

Kobe-Zed commented 7 months ago

感谢作者优秀的工作!想请教一下关于O-LoRA在更challenging的长序列任务上(large number of tasks)性能表现与PerTaskFT和MTL有差距的原因可能有哪些?期待您的回复!

cmnfriend commented 7 months ago

这是我的理解😊:一方面,随着任务序列的增长,旧任务的更新参数所张成的空间也越来越大,其中可能包含了某些有利于当前任务学习的子空间,而正则化约束会让当前任务的训练尽量不发生在这样的子空间中。因此为了保持之前任务的性能,可能会需要牺牲一些当前任务的性能。另一方面,由于我们的正则化约束是软约束,不能完全保证正交(完全正交可能也不利于训练),对于序列中的某些任务只能起到减缓遗忘的作用,随着序列变长遗忘累积就会比较明显。除了方法因素以外,还有数据集因素,比如长序列中A任务很容易受到B任务影响(天生的challenging😂)等等。

Kobe-Zed commented 7 months ago

好的,非常感谢您的回复!