Open Yagami360 opened 4 years ago
Hypercolum 一般的に CNN を用いたモデルにおいて、CNN の最終層からの出力が最終的な結果(識別結果、セグメンテーション画像など)に利用される。 この CNN の最終層からの出力は、畳み込みの結果、局所的な位置情報が失われたものになっている。 一方、CNN の上位層からの出力は、局所的な位置情報が保たれているが、セマンティクス意味情報は織り込めていない。(例えば、CNN の上位層では足の位置を正解に検出できるが、人間の足と動物の足のセマンティクス意味情報の違いを区別できていない) セマンティクスセグメンテーションタスクにおいては、局所的な位置情報とセマンティクス意味情報の双方が必要となるが、CNN の最終層からの出力を利用すると局所的な位置情報が失われていたセグメンテーション結果になる。かといってCNN の上位層からの出力を利用するとセマンティクス意味情報が埋め込めないセグメンテーション結果になる。
Hypercolum の実際の活用
隣接している CNN 層は互いに強い相関があるので、Hypercolum を抽出する際は CNN の全層からではなく、上図のようにいくつかの非隣接層からピックアップした層から Hypercolum を抽出する。 この際に、各畳み込み層からの特徴マップを、実際に concat しようとすると、サイズの不一致で concat できない。 bilinear interpolation で upsampling し各特徴マップのサイズを合わせる。 そうして concat された1つのベクトル情報が Hypercolum となる。 以上を式で書くと、以下の式のようになる
セグメンテーション位置品質の定性比較
ベースラインとしている fc7 より、Hypercolum を利用したほうが境界付近の細かい位置品質が高くなっていることが見て取れる。 ※【補足】 ベースラインの fc7 というのは、以下のネットワークの fc7 部分からの出力を利用した場合の意味
ラベリング品質の定性比較
ベースラインとしている fc7 より、Hypercolum を利用したほうがラベリング品質が高くなっていることが見て取れる。
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
Hypercolum 一般的に CNN を用いたモデルにおいて、CNN の最終層からの出力が最終的な結果(識別結果、セグメンテーション画像など)に利用される。 この CNN の最終層からの出力は、畳み込みの結果、局所的な位置情報が失われたものになっている。 一方、CNN の上位層からの出力は、局所的な位置情報が保たれているが、セマンティクス意味情報は織り込めていない。(例えば、CNN の上位層では足の位置を正解に検出できるが、人間の足と動物の足のセマンティクス意味情報の違いを区別できていない) セマンティクスセグメンテーションタスクにおいては、局所的な位置情報とセマンティクス意味情報の双方が必要となるが、CNN の最終層からの出力を利用すると局所的な位置情報が失われていたセグメンテーション結果になる。かといってCNN の上位層からの出力を利用するとセマンティクス意味情報が埋め込めないセグメンテーション結果になる。
Hypercolum の実際の活用
隣接している CNN 層は互いに強い相関があるので、Hypercolum を抽出する際は CNN の全層からではなく、上図のようにいくつかの非隣接層からピックアップした層から Hypercolum を抽出する。 この際に、各畳み込み層からの特徴マップを、実際に concat しようとすると、サイズの不一致で concat できない。 bilinear interpolation で upsampling し各特徴マップのサイズを合わせる。 そうして concat された1つのベクトル情報が Hypercolum となる。 以上を式で書くと、以下の式のようになる
4. どうやって有効だと検証した?
セグメンテーション位置品質の定性比較
ベースラインとしている fc7 より、Hypercolum を利用したほうが境界付近の細かい位置品質が高くなっていることが見て取れる。 ※【補足】 ベースラインの fc7 というのは、以下のネットワークの fc7 部分からの出力を利用した場合の意味
ラベリング品質の定性比較
ベースラインとしている fc7 より、Hypercolum を利用したほうがラベリング品質が高くなっていることが見て取れる。
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献