Gradvac的梯度更新 - Githubissues

median-research-group / LibMTL

A PyTorch Library for Multi-Task Learning

MIT License

1.94k stars 181 forks source link

Gradvac的梯度更新 #36

Closed MartinPR307 closed 1 year ago

MartinPR307 commented 1 year ago

您好！Gradvac原文中提到了网络不同层间的梯度相似度最后收敛到不同的值，所以对不同任务以及不同层设置了不同的目标值。原文描述如下： To incorporate these three factors, we exploit an exponential moving average (EMA) variable for tasks i, j and parameter group k (e.g. the k-th layer) as:

但你们实现的Gradvac仍然只是对不同任务间设置了不同目标值。这是否合理？

Baijiong-Lin commented 1 year ago

这里的parameter group k是一个可调的超参数，正如原文的实验，k可以是whole_model也可以是all_layer。我们实现的是whole_model版本，后续我们会修改我们的实现，把k这个超参数加进去。

MartinPR307 commented 1 year ago

谢谢回复！期待细粒度的版本！

Baijiong-Lin commented 1 year ago

@MartinPR307 GradVac的实现已经修改，通过--GradVac_group_type可以选择whole_model，all_layer和all_matrix，分别对应原文的描述如下，

Baijiong-Lin commented 1 year ago

Closed as no further updates.