Multi-Task Learning for Segmentation of Building Footprints with Deep Neural Networks

一言でいうと

Google Mapのような衛生画像を対象に、画像に写る家やビル等の「オブジェクト」とその他の境界を判別する画像を出力するための研究。従来の研究は境界付近の予測精度が悪かったため、境界付近のピクセルにAttentionするようにEncoder-Decoder Neural Networkにバイアスをかけるようなマルチタスク損失関数を提案。実験の結果、Union Intersection over Union (IoU)※ において最新の手法を9.8%上回った。

※実際の物体領域と、予測物体領域との一致具合を評価する手法。　 IoU = Overlap(実際の物体領域 ∩ 予測物体領域) / Union (実際の物体領域 + 予測物体領域) で精度を算出する。

論文リンク

https://ieeexplore.ieee.org/abstract/document/8803050

著者/所属機関

Benjamin Bischke, Patrick Helber, Joachim Folz, Damian Borth, Andreas Dengel

投稿日付

2019/??/?? IEEE

概要

高解像度の衛星画像の可用性の向上により、地球の表面の非常に詳細な構造を感知できます。そのような情報へのアクセスは、リモートセンシング画像の分析における新しい方向性を切り開きます。ディープニューラルネットワークは、高解像度画像のセマンティックセグメンテーションで大きな進歩を遂げていますが、既存のアプローチのほとんどは、境界の悪い予測を生成する傾向があります。この論文では、新しいマルチタスク損失を導入することにより、高解像度衛星画像のセマンティックセグメンテーション境界を保存する問題に対処します。損失は、セグメンテーションマスクの複数の出力表現を活用し、境界付近のピクセルにより多く焦点を当てるようにネットワークにバイアスをかけます。高解像度画像を含む大規模なInria Aerial Image Labeling Datasetでのアプローチを評価します。結果から、追加の後処理ステップなしで、Union Intersection over Union（IoU）メトリックで最新のメソッドを9.8％上回ることができます。

新規性・差分

従来手法では、ネットワークを複雑化 (2つのネットワークを使用するなど) して予測を行ったり、異なるクラスの物体同士のエッジ予測が上手くいかないといった問題が残っていた。この研究では、境界および物体認識予測の共有表現を学習できるように、単一のネットワークを学習することで、モデルの全体的な複雑さが軽減され、クラスに依存しないエッジ予測などの問題を回避している。

手法

数式のため割愛

結果

従来手法は、境界が曖昧であることから物体を大きく認識しすぎる傾向にあったため、精度は悪くないが細かい凹凸までは捉えられていない。この手法では、境界をより正確に認識するようになったため、IoUが大きく増加しオブジェクトがよりシャープに出力された。

マルチタスク学習は、扱う問題ごとに最適なマルチタスク学習を提案する必要があるのか？ここを自動化することが目的だと思うので別のアプローチを探す必要がある

実装

https://github.com/bbischke/MultiTaskBuildingSegmentation.

nekonookangae / SummarizePapers