Student-Teacher Learning from Clean Inputs to Noisy Inputs

論文概要

Student-Teacher学習いわゆる知識蒸留が「いつ」「なぜ」成功するかを理論的・実験的に洞察した論文。結果以下3つの結論を得ている。1. 生徒側はTrainingロスを0にしてはいけない。2. 知識が豊富な教師を利用するのが望ましいが限界もある。3.知識は分解されていた方が良い。

Student-Teacher学習は様々なケースがあるため、全ての分析をするのは困難だったためLimitationとして、StudentとTeacherは同一のアーキテクチャを持ち、両者の特徴は変換が適用されておらず、両者は同じタスクを解いているという前提がある。更に論文の焦点はStudentの汎化性能のみに当てられている。

他に得られている実験的な洞察として「生徒が利用できる学習サンプル数が多い場合、教師はより知識が豊富である必要がある」「生徒の課題がより困難な場合、教師はより多くの知識を保持する必要がある」「教師の隠れた特徴の複雑さが十分に低い場合、生徒が教師の特徴を模倣するのは容易である」など。

bib_20210326 00

https://arxiv.org/abs/2103.07600

Code

未確認。

tkuri / papers

Student-Teacher Learning from Clean Inputs to Noisy Inputs #373

論文概要

Code