fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

2ヘッド知識蒸留: 補助ヘッドによるロジット活用の強化 #729

Open fulfulggg opened 1 hour ago

fulfulggg commented 1 hour ago

タイトル: 2ヘッド知識蒸留: 補助ヘッドによるロジット活用の強化

リンク: https://arxiv.org/abs/2411.08937

概要:

従来の知識蒸留は、生徒モデルの予測確率を正解ラベルと教師モデルの予測確率の両方に合わせることに注力しています。しかし、ロジットから予測確率への変換は、ある種の不可欠な情報を曖昧にする可能性があります。この問題に対処するため、広く使用されている確率レベルの損失関数に加えて、ロジットの潜在情報を活用するために、ロジットレベルの損失関数を導入することは直感的です。しかし、経験的に、新たに導入したロジットレベルの損失と従来の確率レベルの損失を組み合わせると、パフォーマンスが低下し、どちらかの損失を単独で使用した場合よりも劣ることがわかりました。私たちは、この現象を分類ヘッドの崩壊に起因すると考えており、これはニューラルコラプス理論に基づく理論的分析によって検証されています。具体的には、2つの損失関数の勾配は線形分類器において矛盾を示しますが、バックボーン内ではそのような矛盾を示しません。この理論的分析に基づき、線形分類器を異なる損失を担当する2つの分類ヘッドに分割する、デュアルヘッド知識蒸留と呼ばれる新しい手法を提案します。これにより、バックボーンに対する両方の損失の有益な効果を維持しながら、分類ヘッドへの悪影響を排除します。広範な実験により、我々の手法はロジット内の情報を効果的に活用し、最先端の手法と比較して優れた性能を達成することが実証されています。

fulfulggg commented 1 hour ago

論文要約

論文要約: 2ヘッド知識蒸留: 補助ヘッドによるロジット活用の強化

fulfulggg commented 1 hour ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました: