gt_q = (q_grad * one_hot).detach()

DRSY / EMO

[ICLR 2024]EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling(https://arxiv.org/abs/2310.04691)

114 stars 14 forks source link

Closed chenxu001 closed 11 months ago

chenxu001 commented 11 months ago

gt_q = (q_grad * one_hot).detach() q_final = q_grad - gt_q

这两行代码目的是什么，论文中未提到相关内容？

DRSY commented 11 months ago

您好，这两行代码是因为训练过程中我们每个时间步的目标分布实际上是一个one-hot分布，那么ground-truth token的那部分梯度就不计入更新了。

chenxu001 commented 11 months ago

那 continual_finetuning部分的emo_llama.py中的代码是不是也要做相应的更改？

DRSY commented 11 months ago

是的，该部分代码会很快更新