Mask R-CNN - Githubissues

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/1703.06870
公開日時：2017/03/20
被引用数（記事作成時点）：6568 件
実装コード(TensorFlow)：https://github.com/tensorflow/models/tree/master/research/object_detection
実装コード(PyTorch)：https://github.com/facebookresearch/detectron
Publication : ICCV 2017 Best Paper

1. どんなもの？

物体検出モデルである Faster R-CNN をインスタンスセグメンテーション用に拡張したモデルで、当時の SOTA を達成。現在、セグメンテーションモデルのベースラインとして広く採用されている。

2. 先行研究と比べてどこがすごいの？

インスタンスセグメンテーションは、物体検出のように画像内の全てのオブジェクトを検出し、更にセマンティクスセグメンテーションのようにこれらオブジェクトをセグメンテーションすることで、画像内の全てのオブジェクトを別々のインスタンスとしてセグメンテーションするというタスクであり、物体検出やセマンティクスセグメンテーションよりも難易度が高いタスクになっている。本手法では、物体検出で優れた成果を実現している Faster R-CNN に対して、RoI [Region of Interest] 上のセグメンテーションマスクを推論する分岐を追加することで、インスタンスセグメンテーションモデルとして機能するように拡張し、このような難易度の高いインスタンスセグメンテーションタスクで大きな品質改善（当時のSOTA）を実現している。
Mask R-CNN は、Faster R-CNN のアーキテクチャを世襲しているので実装や学習が容易になっており、更には高速に動作する（5FPS）というメリットもある。
現在（記事作成時点）では、セグメンテーションモデルのベースラインとして広く採用されている。

3. 技術や手法の"キモ"はどこにある？

アーキテクチャの全体像
Mask R-CNN が世襲する Faster R-CNN のネットワークは、物体検出用途のために、クラスラベルと BBOX 用のオフセット情報の２つの出力構造を持つ。 Mask R-CNN では、このクラスラベルと BBOX 用のオフセット情報に加えて、上図のように各 Rol [Region of Interest]（ここでは BBOX 領域に相当？）に対してのバイナリマスク画像を出力するようにする。この際の RoI 領域の割り当ては、Faster R-CNN のように RoI Pooling で行うのではなくて、 RoIAlign と呼ばれる方法で行う。このバイナリマスク画像を出力するためのネットワークは、小さな FCN（全畳み込み層）で構成される。
RoI Pooling と RoIAlign 先に述べたように、Mask R-CNN では単に RoI 領域に対してのバイナリマスク画像を出力する FCN 層を追加してセグメンテーションモデル用に拡張するだけでなく、RoI 領域割り当ての手法も RoI Pooling -> RoIAlign に変更している。このことが、セグメンテーション品質向上に大きく影響を与えている。（マスク精度が相対的に10%から50%向上）
- RoI Pooling（Faster R-CNN での RoI 領域の割り当て）
  入力画像における Regon proposal 領域は、畳み込み処理後の特徴マップ上では、右下図（青枠）のように上下左右に 0.5 ピクセルずつずれた領域になってしまう。 Faster R-CNN では、このズレを埋めるために RoI Pooling と呼ばれる処理を行う。これは上図（赤枠）のように、0.5 ピクセルのズレを整数値で丸める処理である。 ※ RoI Pooling では更にこの後、上図の赤枠内部の 3x3 の小領域のように分割する処理を行うが、ここでは詳細略とする。しかしながら、この RoI Pooling で丸め誤差を埋め合わせる方法では、元の入力画像上では｛0.5 x CNN の stride幅｝に比例したズレに拡大し、これはピクセルレベルの細かい品質が要求されるインスタンスセグメンテーションでは大きな問題になってしまう。
- RoIAlign（本手法での RoI 領域の割り当て）
  Mask R-CNN では、上記 RoI Pooling で問題になる丸め誤差をなくすために、上図のような RoIAlign で、RoI 領域の割り当てを行う。この RoIAlign では、
  1. まず特徴マップ上での Regon proposal 領域を（整数で丸めるのではなく）そのまま利用し、それを 3x3 の少領域（ビン）に分割する。 2. そして、その各ビン内において特徴マップ上の隣接する４つのピクセル点を元に、bilinear interpolation で、各ピクセル点の値を補間する。 3. 最後に、補間したビン内の４つのピクセル点を max pooling or average pooling で補間し、これを RoIAlign による RoI 領域の代表点とする。
損失関数本手法での損失関数は、RoI 領域上のピクセルのみに対して適用される損失関数となり、以下の式のように定義される
補足（セマンティクスセグメンテーション、物体検出、インスタンスセグメンテーションの違い）
- セマンティクスセグメンテーション風船を同じラベル値でセグメンテーション化。風船の形状情報（セグメンテーション）は得られるが、別々の風船は区別できない。 - 物体検出：風船の BBOX を検出。別々の風船は区別できるが、風船の形状情報（セグメンテーション）は得られない。 - インスタンスセグメンテーション：風船の BBOX を検出し、なおかつ各風船をセグメンテーション化。別々の風船を区別できて、なおかつ各風船の形状情報（セグメンテーション）も得られる。

4. どうやって有効だと検証した？

既存のインスタンスセグメンテーションモデルとの定量的品質比較検証
Mask R-CNN では、既存の手法より高品質なインスタンスセグメンテーションを生成出来ている。
RoIAlign 有無による ablation study
RoIPool より、RoIAlign のほうが高いスコアになっており、より高品質なインスタンスセグメンテーションが実現出来ていることが見て取れる。

5. 議論はあるか？

6. 次に読むべき論文はあるか？

Faster R-CNN
Fast R-CNN

Yagami360 / machine-learning-papers-survey

Mask R-CNN #65

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献