Single-Stage Semantic Segmentation from Image Labels

Nikita Araslanov, Stefan Roth

2020-05-16

1. どんなもの？

Semantic Segmentationを行う際に新たに3つの属性を考慮することで、Single-Stageで画像のラベル情報のみから自己教師あり学習を行いSegmentationを学習可能なモデルを提案した。

以下が実際の予測結果である（左図）。

従来はCAMを使用して対象の物体の領域を検出しようとしていたが、この手法では物体の境界を正しく検知することができない。しかしより大きなモデルと複雑な学習パイプラインを構築することでラベルのみを使用した状況でも高い精度を達成してきた。

CAMの弱点は以下のように、(1)背景などの局所的な領域に異なるラベルを予測してしまうことや、(2)物体全体をカバーできておらず、(3)一部のラベルが誤って予測されてしまうことである。

こうした弱点を克服するために、(1)似たような外観を持つ隣り合ったピクセルは同じクラスで予測されること、(2)分類タスクが実行可能なセグメンテーションマスクを出力すること、(3)画像中に出現しているすべての物体のクラスを特定できるようにする新たなモデルを提案した。