Closed 980202006 closed 7 months ago
你好,在one-hot标签的语言建模中,单纯优化emo loss会主要倾向于优化Precision,即准确,但多样性会差一点。因此,我们的最终优化目标是MLE和EMO的动态加权(具体见代码和论文附录),以MLE和EMO的比值作为EMO的系数。即以MLE的数值为锚点,调整EMO的scale,兼顾precison和recall。另外,我们提供了general数据分布p下的emo形式,用于p不为one-hot的情况。
2024年3月30日 00:28,980202006 @.***> 写道:
你好,这篇论文很有启发性,从代码可以看出相当于加入了修正的cos loss。而这个是否会导致模型倾向于给相同语义的token类似的权重,比如前面的字是“今天是周三,明天是”, 后面会倾向于给出“周四”,而“星期四”和“周四”的语义类似,经过emo loss训练的模型给出“星期四”的logit和“周四”接近一致,这样语义相似且logit高的token占了大部分概率,导致模型倾向于输出单一的风格,是否会存在这个问题呢? @DRSY https://github.com/DRSY — Reply to this email directly, view it on GitHub https://github.com/DRSY/EMO/issues/12, or unsubscribe https://github.com/notifications/unsubscribe-auth/AFL5XK2FKEII42X6VWTYK33Y2WJEBAVCNFSM6AAAAABFOUMBQWVHI2DSMVQWIX3LMV43ASLTON2WKOZSGIYTKNRVGY3DSNQ. You are receiving this because you were mentioned.
@DRSY 感谢回复!我发现了个潜在的问题:loss计算是 (1 - torch.sum(p_contextual_repr*q_contextual_repr, dim=-1)) ,可以写成 (p_contextual_repr - q_contextual_repr)2 + (1-q_contextual_repr 2) , q_contextual_repr的平方肯定小于1,第二项会使得概率趋向于单峰,可能导致多样性问题。
您好,
代码实现中我们提供的二次型EMD上界形式理论上会使模型分布Q_\theta的各个维度以不同速率趋于单峰(峰值点具有最低期望转移代价)。由于语言建模任务标签通常为one-hot形式,因此在这种情况下,优化该上界得到的解和EMD的解相同。
“Generalized Form for Arbitrary P”小节中有关于general形势下的目标函数
2024年4月2日 17:31,980202006 @.***> 写道:
@DRSY https://github.com/DRSY 感谢回复!我发现了个潜在的问题:loss计算是 (1 - torch.sum(p_contextual_repr*q_contextual_repr, dim=-1)) ,可以写成 (p_contextual_repr - q_contextual_repr)2 + (1-q_contextual_repr 2) , q_contextual_repr的平方肯定小于1,第二项会使得概率趋向于单峰,可能导致多样性问题。
— Reply to this email directly, view it on GitHub https://github.com/DRSY/EMO/issues/12#issuecomment-2031515147, or unsubscribe https://github.com/notifications/unsubscribe-auth/AFL5XK2A6OGLOTA7YS4TVVTY3J3G5AVCNFSM6AAAAABFOUMBQWVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDAMZRGUYTKMJUG4. You are receiving this because you were mentioned.
好的,谢谢!我详细看看。
你好,这篇论文很有启发性,从代码可以看出相当于加入了修正的cos loss。而这个是否会导致模型倾向于给相同语义的token类似的权重,比如前面的字是“今天是周三,明天是”, 后面会倾向于给出“周四”,而“星期四”和“周四”的语义类似,经过emo loss训练的模型给出“星期四”的logit和“周四”接近一致,这样语义相似且logit高的token占了大部分概率,导致模型倾向于输出单一的风格,是否会存在这个问题呢? @DRSY