Open tkuri opened 3 years ago
従来の知識蒸留は同一レベルの特徴間での特徴変化や損失を利用していたが、この直感的な手順がフレームワークのボトルネックになっていると指摘。教師ネットワークの低レベルの特徴を利用して生徒の深い特徴を監督することにより全体的な性能が「大幅」に向上することを提示。
https://arxiv.org/abs/2104.09044
https://github.com/Jia-Research-Lab/ReviewKD
論文概要
従来の知識蒸留は同一レベルの特徴間での特徴変化や損失を利用していたが、この直感的な手順がフレームワークのボトルネックになっていると指摘。教師ネットワークの低レベルの特徴を利用して生徒の深い特徴を監督することにより全体的な性能が「大幅」に向上することを提示。
https://arxiv.org/abs/2104.09044
Code
https://github.com/Jia-Research-Lab/ReviewKD