Alibaba-NLP / StructuralKD

[ACL-IJCNLP 2021] Structural Knowledge Distillation: Tractably Distilling Information for Structured Predictor
Other
9 stars 1 forks source link

请问simple_forward_distillation_loss()函数实现中的一个问题 #7

Open erichuazhou opened 1 year ago

erichuazhou commented 1 year ago

1、在sequence_tagger_model.py的simple_forward_distillation_loss()的实现中,在 2185 行: image

该条件永远为False,请问下该条件下的代码是测试代码吗?还是为了解决 句子长度为1 时的特殊情况?

2、在复现Linear-Chain CRF⇒Linear-ChainCRF的任务过程中,配置均为默认配置。发现simple_forward_distillation_loss()的实现中,exact_loss的值的数量级永远大约是target_loss值的 **T***T 倍。而这两者应该是同一个数量级才有意义。是否在代码实现中有些bug? 谢谢。

@wangxinyu0922 @yanzhh @JZXXX

wangxinyu0922 commented 1 year ago
  1. 这个用来debug的
  2. T是KL divergence的temperature数值,见5.2节讨论。