Open gzoftju opened 7 months ago
您好,请问一下,您使用余弦相似度在蒸馏的时候tea_logit的分布是不是过于光滑了?几乎都是0.0002和0.0003。以及蒸馏时学生模型使用L2计算,与余弦不太符合。还有使用logit_y=True是为什么?放缩吗?也不对吧
您好,请问一下,您使用余弦相似度在蒸馏的时候tea_logit的分布是不是过于光滑了?几乎都是0.0002和0.0003。以及蒸馏时学生模型使用L2计算,与余弦不太符合。还有使用logit_y=True是为什么?放缩吗?也不对吧