PLE模型中如何使用MGDA-UB的weighting

median-research-group / LibMTL

A PyTorch Library for Multi-Task Learning

MIT License

1.94k stars 181 forks source link

PLE模型中如何使用MGDA-UB的weighting #35

Closed fly12357 closed 1 year ago

fly12357 commented 1 year ago

MGDA-UB原文中求representation的梯度，对于PLE和MMOE这类模型来说，representation是经过gate加权求和后的representation？

Baijiong-Lin commented 1 year ago

MGDA原文只使用了HPS结构，对于PLE和MMOE这类型的结构，实现上仍然可以使用representation的梯度，但不能保证这样做是完全有道理的

fly12357 commented 1 year ago

MGDA原文只使用了HPS结构，对于PLE和MMOE这类型的结构，实现上仍然可以使用representation的梯度，但不能保证这样做是完全有道理的

嗯嗯~多谢回复。 1. 我看到LibMTL是支持不同结构和weighting策略进行组合的。使用LibMTL里面的PLE和WGDA-UB的组合方式的话，是直接采用gate加权求和后的representation？ 2. 请问你们有做过PLE和不同的weighting策略的combine的情况下的实验对比？

Baijiong-Lin commented 1 year ago

representation是指每个task decoder的输入，是对这个求导来代替对parameter求导
我们在小数据上有做过实验，但PLE可能更适合于推荐任务，你可以在你自己的数据集上进行尝试。我们在NYU数据集上实验过 Cross-stitch，MTAN的结构（这篇paper的Table 5），另外我找到这篇paper的Table 2有在一些推荐任务上实验了MMoE的结构

fly12357 commented 1 year ago

representation是指每个task decoder的输入，是对这个求导来代替对parameter求导

我们在小数据上有做过实验，但PLE可能更适合于推荐任务，你可以在你自己的数据集上进行尝试。我们在NYU数据集上实验过 Cross-stitch，MTAN的结构（这篇paper的Table 5），另外我找到这篇paper的Table 2有在一些推荐任务上实验了MMoE的结构

非常感谢。