Closed chenxu001 closed 11 months ago
gt_q = (q_grad * one_hot).detach() q_final = q_grad - gt_q
这两行代码目的是什么,论文中未提到相关内容?
您好, 这两行代码是因为训练过程中我们每个时间步的目标分布实际上是一个one-hot分布,那么ground-truth token的那部分梯度就不计入更新了。
那 continual_finetuning部分的emo_llama.py中的代码是不是也要做相应的更改?
是的,该部分代码会很快更新
gt_q = (q_grad * one_hot).detach() q_final = q_grad - gt_q
这两行代码目的是什么,论文中未提到相关内容?