Hypercolumns for Object Segmentation and Fine-grained Localization

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/1411.5752
公開日時：2014/11/21
被引用数（記事作成時点）：1163 件
実装コード：
Publication :

1. どんなもの？

CNN の全層（実際にはいくつかピックアップした層）からのあるピクセル位置での特徴マップの値をつなげた Hypercolum を利用することで、セマンティクスセグメンテーションタスクにおける品質向上を実現

2. 先行研究と比べてどこがすごいの？

一般的に CNN を用いたモデルにおいて、CNN の最終層からの出力が最終的な結果に利用される。この CNN の最終層からの出力は、畳み込みの結果、局所的な位置情報が失われたものになっている。一方、CNN の上位層からの出力は、局所的な位置情報が保たれているが、セマンティクス意味情報は織り込めていない。セマンティクスセグメンテーションタスクにおいては、局所的な位置情報とセマンティクス意味情報の双方が必要となるが、CNN の最終層からの出力を利用すると局所的な位置情報が失われていたセグメンテーション結果になる。かといってCNN の上位層からの出力を利用するとセマンティクス意味情報が埋め込めないセグメンテーション結果になる。本手法では、CNN の全層（実際にはいくつかピックアップした層）からのあるピクセル位置での特徴マップの値をつなげた Hypercolum を利用することで、セマンティクスセグメンテーションタスクにおける品質向上を実現している。

3. 技術や手法の"キモ"はどこにある？

Hypercolum 一般的に CNN を用いたモデルにおいて、CNN の最終層からの出力が最終的な結果（識別結果、セグメンテーション画像など）に利用される。この CNN の最終層からの出力は、畳み込みの結果、局所的な位置情報が失われたものになっている。一方、CNN の上位層からの出力は、局所的な位置情報が保たれているが、セマンティクス意味情報は織り込めていない。（例えば、CNN の上位層では足の位置を正解に検出できるが、人間の足と動物の足のセマンティクス意味情報の違いを区別できていない）セマンティクスセグメンテーションタスクにおいては、局所的な位置情報とセマンティクス意味情報の双方が必要となるが、CNN の最終層からの出力を利用すると局所的な位置情報が失われていたセグメンテーション結果になる。かといってCNN の上位層からの出力を利用するとセマンティクス意味情報が埋め込めないセグメンテーション結果になる。
本論文では、セマンティクスセグメンテーションタスクで重要になってくる情報は、CNN の全ての層に分散しているという仮設を元に、上図のようなCNN の全層（実際にはいくつかピックアップした層）からのあるピクセル位置での特徴マップの値をつなげた Hypercolum を利用することを提案している。
Hypercolum の実際の活用

隣接している CNN 層は互いに強い相関があるので、Hypercolum を抽出する際は CNN の全層からではなく、上図のようにいくつかの非隣接層からピックアップした層から Hypercolum を抽出する。この際に、各畳み込み層からの特徴マップを、実際に concat しようとすると、サイズの不一致で concat できない。 bilinear interpolation で upsampling し各特徴マップのサイズを合わせる。そうして concat された１つのベクトル情報が Hypercolum となる。以上を式で書くと、以下の式のようになる

4. どうやって有効だと検証した？

セグメンテーション位置品質の定性比較

ベースラインとしている fc7 より、Hypercolum を利用したほうが境界付近の細かい位置品質が高くなっていることが見て取れる。 ※【補足】ベースラインの fc7 というのは、以下のネットワークの fc7 部分からの出力を利用した場合の意味
ラベリング品質の定性比較

ベースラインとしている fc7 より、Hypercolum を利用したほうがラベリング品質が高くなっていることが見て取れる。

5. 議論はあるか？

比較的古い論文（2014年）であるが、encode-decoder 構造のセグメンテーションモデル（UNetなど）でも有用そうな手法（decoder 側の出力で Hypercolum を作成すればよい）。実装自体も簡単（アップサンプリングして concat するだけ）

Yagami360 / machine-learning-papers-survey

Hypercolumns for Object Segmentation and Fine-grained Localization #64

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献