median-research-group / LibMTL

A PyTorch Library for Multi-Task Learning
MIT License
1.94k stars 181 forks source link

PLE模型中如何使用MGDA-UB的weighting #35

Closed fly12357 closed 1 year ago

fly12357 commented 1 year ago

MGDA-UB原文中求representation的梯度,对于PLE和MMOE这类模型来说,representation是经过gate加权求和后的representation?

Baijiong-Lin commented 1 year ago

MGDA原文只使用了HPS结构,对于PLE和MMOE这类型的结构,实现上仍然可以使用representation的梯度,但不能保证这样做是完全有道理的

fly12357 commented 1 year ago

MGDA原文只使用了HPS结构,对于PLE和MMOE这类型的结构,实现上仍然可以使用representation的梯度,但不能保证这样做是完全有道理的

嗯嗯~多谢回复。 1. 我看到LibMTL是支持不同结构和weighting策略进行组合的。使用LibMTL里面的PLE和WGDA-UB的组合方式的话,是直接采用gate加权求和后的representation? 2. 请问你们有做过PLE和不同的weighting策略的combine的情况下的实验对比?

Baijiong-Lin commented 1 year ago
  1. representation是指每个task decoder的输入,是对这个求导来代替对parameter求导
  2. 我们在小数据上有做过实验,但PLE可能更适合于推荐任务,你可以在你自己的数据集上进行尝试。我们在NYU数据集上实验过 Cross-stitch,MTAN的结构(这篇paper的Table 5),另外我找到这篇paper的Table 2有在一些推荐任务上实验了MMoE的结构
fly12357 commented 1 year ago
  1. representation是指每个task decoder的输入,是对这个求导来代替对parameter求导
  2. 我们在小数据上有做过实验,但PLE可能更适合于推荐任务,你可以在你自己的数据集上进行尝试。我们在NYU数据集上实验过 Cross-stitch,MTAN的结构(这篇paper的Table 5),另外我找到这篇paper的Table 2有在一些推荐任务上实验了MMoE的结构

非常感谢。