Open Yagami360 opened 4 years ago
アーキテクチャの全体像
RoI Pooling と RoIAlign 先に述べたように、Mask R-CNN では単に RoI 領域に対してのバイナリマスク画像を出力する FCN 層を追加してセグメンテーションモデル用に拡張するだけでなく、RoI 領域割り当ての手法も RoI Pooling -> RoIAlign に変更している。 このことが、セグメンテーション品質向上に大きく影響を与えている。(マスク精度が相対的に10%から50%向上)
RoI Pooling(Faster R-CNN での RoI 領域の割り当て)
RoIAlign(本手法での RoI 領域の割り当て)
損失関数 本手法での損失関数は、RoI 領域上のピクセルのみに対して適用される損失関数となり、以下の式のように定義される
補足(セマンティクスセグメンテーション、物体検出、インスタンスセグメンテーションの違い)
既存のインスタンスセグメンテーションモデルとの定量的品質比較検証
RoIAlign 有無による ablation study
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
アーキテクチャの全体像
RoI Pooling と RoIAlign 先に述べたように、Mask R-CNN では単に RoI 領域に対してのバイナリマスク画像を出力する FCN 層を追加してセグメンテーションモデル用に拡張するだけでなく、RoI 領域割り当ての手法も RoI Pooling -> RoIAlign に変更している。 このことが、セグメンテーション品質向上に大きく影響を与えている。(マスク精度が相対的に10%から50%向上)
RoI Pooling(Faster R-CNN での RoI 領域の割り当て)
RoIAlign(本手法での RoI 領域の割り当て)
1. まず特徴マップ上での Regon proposal 領域を(整数で丸めるのではなく)そのまま利用し、それを 3x3 の少領域(ビン)に分割する。 2. そして、その各ビン内において特徴マップ上の隣接する4つのピクセル点を元に、bilinear interpolation で、各ピクセル点の値を補間する。 3. 最後に、補間したビン内の4つのピクセル点を max pooling or average pooling で補間し、これを RoIAlign による RoI 領域の代表点とする。
損失関数 本手法での損失関数は、RoI 領域上のピクセルのみに対して適用される損失関数となり、以下の式のように定義される
補足(セマンティクスセグメンテーション、物体検出、インスタンスセグメンテーションの違い)
4. どうやって有効だと検証した?
既存のインスタンスセグメンテーションモデルとの定量的品質比較検証
RoIAlign 有無による ablation study
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献