1ステージ物体検出器においてクラス間不均衡に対処する方法としては、 bootstrapping や hard example mining が考えられるが、これらの手法は処理効率が悪いという問題がある。
本手法ではこの問題を解決するために、1ステージ物体検出器においてより効率的にクラス間不均衡に対処できる Focal Loss を提案している。
上図は、cross entropy loss(青線)とFocal Loss(青線以外)を示した図である。
青線を見てわかるように、cross entropy loss ではモデルの推論確率 p が半々の確率よりも圧倒的に高く確信度の高い状態(p≫0.5)でも、損失関数は非ゼロになっている。
従って、多数のサンプル点で cross entropy loss の和を取るときに、この小さな loss 値の合計は、確信度が低く(p≪0.5)損失関数値が大きいクラスの値を凌駕してしまうケースが発生する。
そして、その結果としてクラス間不均衡がある場合に物体検出精度が低下してしまう。
Focal Loss では、この問題に対処するために、正しいクラスの確信度が高まるにつれて(p≫0.5)、スケーリング係数をゼロに減衰させ、損失関数値がより小さくなるようにクロスエントロピー損失関数を再構成する。
式で書くと、以下のような式となる。
4. どうやって有効だと検証した?
既存の物体検出モデルとの定量比較
focal loss を有効化した RetineNet では、単純化した1ステージ検出器であるにも関わらず、AP スコアが既存のモデル(1ステージ検出器及び2ステージ検出器の両方)を上回ってており、高精度の物体検出を行えていることが見て取れる。
- 【補足】RetinaNet のアーキテクチャ
focal loss の有用性を確認するために設計された物体検出モデルで、単純化された1ステージ物体検出器になっている
5. 議論はあるか?
この Focal Loss は、物体検出タスク以外にも、セマンティクスセグメンテーションタスクやインスタンスセグメンテーションタスクでの cross entory loss → Focal Loss を置き換えることでも効果を発揮しそう
0. 論文情報・リンク
1. どんなもの?
1ステージの物体検出器において、背景クラスと前景クラスとの間のクラス間不均衡(背景のほうが圧倒的に領域がでかい)がある場合でもうまく学習出来るように cross entopy loss を再構成した focal loss を提案し、1ステージ物体検出器でも2ステージ物体検出器の精度を上回ることを実現
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
Focal Loss R-CNN などの2ステージ物体検出器では、two-stage cascade とsampling heuristics により、背景クラスと前景クラスとの間のクラス間不均衡(背景のほうが圧倒的に領域がでかい)に対処している。一方 YOLO や SSD などの1ステージ物体検出器は、推論速度は高速である一方で、このようなクラス間不均衡への対処が行われていないために、検出精度が低下してしまうという問題が存在する。
1ステージ物体検出器においてクラス間不均衡に対処する方法としては、 bootstrapping や hard example mining が考えられるが、これらの手法は処理効率が悪いという問題がある。
本手法ではこの問題を解決するために、1ステージ物体検出器においてより効率的にクラス間不均衡に対処できる Focal Loss を提案している。
4. どうやって有効だと検証した?
既存の物体検出モデルとの定量比較
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献