murray-z / knowledge_distillation

knowledge distillation: 采用知识蒸馏,训练bert后指导textcnn
16 stars 7 forks source link

蒸馏的效果没有直接用数据训练TextCNN的效果好? #2

Open czhxiaohuihui opened 3 years ago

czhxiaohuihui commented 3 years ago

我在自己的数据集上试了一下,bert的效果大概是85%,textCNN是79%, 然后用蒸馏大概只有77.8%. 蒸馏相关的两个参数都是按照你代码里的: self.T = 10 # 调整温度 self.alpha = 0.9 # 调整soft_target loss 和 hard_target loss 比重

xxllp commented 2 years ago

我本地跑的textcnn模型效果是可以提升的 textcnn 模型90% Bert 95% 最终textcnn的效果接近bert

murray-z commented 2 years ago

调下参吧,我也是写了代码,没有训练测试过