蒸馏的效果没有直接用数据训练TextCNN的效果好？

murray-z / knowledge_distillation

knowledge distillation: 采用知识蒸馏，训练bert后指导textcnn

16 stars 7 forks source link

蒸馏的效果没有直接用数据训练TextCNN的效果好？ #2

Open czhxiaohuihui opened 3 years ago

czhxiaohuihui commented 3 years ago

我在自己的数据集上试了一下，bert的效果大概是85%，textCNN是79%，然后用蒸馏大概只有77.8%. 蒸馏相关的两个参数都是按照你代码里的： self.T = 10 # 调整温度 self.alpha = 0.9 # 调整soft_target loss 和 hard_target loss 比重

xxllp commented 2 years ago

我本地跑的textcnn模型效果是可以提升的 textcnn 模型90% Bert 95% 最终textcnn的效果接近bert

murray-z commented 2 years ago

调下参吧，我也是写了代码，没有训练测试过