e4exp / paper_manager_abstract

0 stars 0 forks source link

Soft Calibration Objectives for Neural Networks #608

Open e4exp opened 2 years ago

e4exp commented 2 years ago

最適な意思決定を行うためには、分類器が経験的な精度と一致した不確実性推定値を生成することが必要です。 しかし,ディープニューラルネットワークは,自分の予測を過小評価したり過大評価したりすることがよくあります. そのため、学習時と事後の両方において、予測の不確実性のキャリブレーションを改善する方法が開発されている。 本研究では、一般的な較正誤差推定器の基礎となるビン化操作のソフト(連続)バージョンに基づいて、較正を改善するための微分可能な損失を提案する。 このソフトキャリブレーションロスを学習に組み込むと、複数のデータセットにおいて、1%以下の精度低下で最先端のシングルモデルECEを実現することができる。 例えば,CIFAR-100 では,クロスエントロピーベースラインと比較して精度が 0.7% 低下する代わりに,ECE を 82% 低下させることができました(ポストホックで再スケーリングした ECE に対して 70%). また,ソフトビニングに基づくキャリブレーションエラーの目的は,ポストトレーニングに組み込むことで,一般的な再キャリブレーション手法である温度スケーリングよりも改善される. 全体として、クロスエントロピー損失と事後的な再校正法を使用する標準的な方法よりも、校正を重視した手順を使用する方が、データセットシフトの際に優れた不確かさ推定値を得られることが、損失とデータセットに関する実験で明らかになりました。

e4exp commented 2 years ago

1 はじめに

さまざまな領域でディープニューラルネットワークが成功しているにもかかわらず、誤キャリブレーションによる予測の影響を受けやすい。 自信過剰と自信不足の両方が誤キャリブレーションに寄与し、ディープニューラルネットワークは経験的に高いキャリブレーションエラーを示します[Guo et al.] キャリブレーションエラー(CE)は、信頼度、すなわち正しさの予測確率が、精度、すなわち正しさの経験的確率からどれだけ乖離しているかを測定することで、モデルの誤キャリブレーションを定量化します。 低いCEを持つモデルは、自律走行車のナビゲーション[Bojarskiら、2016]や医療診断[Jiangら、2012、Caruanaら、2015、Kocbekら、2020]など、十分にモデル化された不確実性に満足のいく結果が依存するドメインでは重要である。 また、キャリブレーションは、モデルの公平性の向上[Pleiss et al., 2017]や分布外のデータの検出[Kuleshov and Ermon, 2017, Devries and Taylor, 2018, Shao et al., 2020]にも有用であることが示されている。 より一般的には、意思決定を行うためにニューラルネットワークの予測信頼度にしきい値を適用するあらゆる設定において、低いCEが望ましい。 CEを定量化する方法は、一般的に、信頼度に基づいてモデル予測をビニングすることを含む。 そして、CEは、異なるビン間の平均予測信頼度と平均精度の絶対差の加重平均として経験的に計算される[Naeini et al.、2015]。

多くの場合、これらのビンは、「equal-width」(スコア区間を一様にビン分けする)や「equal-mass」(ビンごとのサンプル数が等しい)といったヒューリスティックな方法で選択される[Nixon et al. しかし、これらの一般的に使用されているCEの尺度は、ビン化操作がビン内では微分がゼロであり、ビンの境界では不連続であるため、微分可能ではありません。 その結果、ニューラルネットワークは、トレーニング中またはポストホック再キャリブレーション中のいずれかで、CEを最小化するようにパラメータを直接トレーニングしない。 本論文では、微分可能なビン化スキームに基づく新しい目的を紹介し、これを用いて効率的かつ直接的にキャリブレーションの最適化を行うことができる。

貢献する。 本論文では,従来のハードビン(非重複,オールオアナッシング)ではなく,ソフトビン(重複,連続)を用いてCEを推定することを提案する. この定式化により、CE推定値は微分可能となり、

(1)学習時にモデルのキャリブレーションを促すための二次(つまり補助)損失、 (2)温度スケーリングなどの事後的な再キャリブレーション手法を最適化するための一次損失、として使用することができます。

同じ精神で、我々はAvUC損失[Krishnan and Tickoo, 2020]をソフト化し、もともとStochastic Variational Inference (SVI)のために提案されたAvUC損失が一般的に機能しない非ベイズ型ニューラルネットワークのトレーニング中に、効果的な二次損失として使用できるようにしています。 我々が提案するソフトキャリブレーションの目的は、実装が容易であり、多くの開発者がモデルのトレーニングに使用しているクロスエントロピー(NLL)損失の二次損失として、また、ポストホックな温度スケーリングのためのクロスエントロピー損失の代替として追加することができる。

大規模な経験的評価では、二次損失としてのソフトキャリブレーション目標を、既存のキャリブレーションを促進する損失と比較しました。 その結果、ソフトキャリブレーションの目的は、分布内テストセットでの先行研究よりも優れていることが分かりました。 分布シフトの下では、キャリブレーションを重視したトレーニング目標(我々が提案するものとは限らない)は、温度スケーリングと結合した標準的なクロスエントロピー損失と比較して、より優れた不確実性推定値をもたらすことがわかりました。 我々の貢献は以下のようにまとめられる。

image