U-Net: Convolutional Networks for Biomedical Image Segmentation

pix2pixないし画像変換系深層学習ベース生成モデルの前準備として、pix2pixのGenerator部で利用されているU-Netの論文を読みGAN沼攻略の長途に就く。

概要

CNNを用いた医療画像向けセグメンテーション論文。
自作ネットワークと限られた学習データを活用するデータオーグメンテーションに依存した学習手法を提案。
ネットワークはコンテキストを捉えるcontracting pathと正確なlocalizationを行う対称構造のアーキテクチャを持つ。
極端に少ない画像データを用いてend-to-endな方法で学習した本モデルはISBI challenge for segmentationにて過去のSoTAモデルを上回る。
同一モデルをtransmitted light microscopy imagesに適用し、ISBI cell tracking challenge 2015で優勝。
GPUを用いた推論では、解像度512x512の画像を１秒未満で捌く。

イントロ

分類タスク等で一般的に使われるCNNだが、biomedical image processingではlocalizationタスクの需要が高い。つまり、分類タスクのような入力画像に対して一つのクラスラベルを出力するのではなく、各ピクセルに対して推論を行いクラスラベルを割り当てるタスクを解くことが好ましい。あとBiomedicalの画像の枚数が単純に入手しづらく足りないぜ。

NIPS2012論文 = 黒船

これらの問題を解決したsliding-window setupの学習器(Ciresan et al.)では、各対象画素の隣接領域(=パッチ)を入力として与えることで対象画素のクラスラベルを推定した。
- 上記手法はローカライゼーションを上手に行い、画像パッチを学習データとして用いることで学習データの大幅な増加を試みた。
- あとISBI2012のEM segmentation Challengeに優勝してる
ただ問題点として低速であり、localization精度とcontext(コンテキスト情報これみろ)の活用がトレードオフ関係にある。
- パッチが大きければより多くのmax-pooling layersを要し精度が下がる一方、小さなパッチではネットワークが入力の十分なコンテキスト情報を得られない。

FCNとU-Net

たらたらと2012年の手法について述べたがここでU-Netがベースとしているfully convolutional network(FCN)が紹介される。

FCNでは、Contracting Network(収縮ネットワーク、FCNの左部)によって入力は一旦縮められ、再度Up-conv層によって出力の解像度を上げられる。
Localizationを行うため、contracting pathにある高解像度特徴はアップサンプリングされた出力と合わさる。
FCNを拡張しよりlocalization性能が高く、極端に少ない学習データでも機能するネットワークU-Netを提案。
upsampling層にてチャンネル数の多い機構を導入することで、より高解像度な層へコンテキスト情報を伝搬することが可能となった
- これによりexpansive pathも大体contracting pathと鏡面的な構造を持つようになり、U状の形状を持つことからU-Netの名前の由来がきている。
データセット少ない問題に対して、データセットの特性を意識したElastic deformationによってよってカバー。ここで変形に対する不変性を持つ。
Cell Segmentationタスクにおいて特に問題となるのが同一ラベルの細胞が隣同士に触れている場合の分離である
- weighted lossを導入し、触れている細胞間を隔てる背景ラベルはより大きい重みを持つ制約をloss関数に課している。

Network Architecture

2019-02-16 2 26 21

合計23層のConv層
Conv層でpaddingを行っていないため、cropping処理が合間に入る

Training

weighted loss
ガウス分布から初期値を求める

Loss Function

最後の特徴マップのpixel-wiseのsoftmaxとcross entropy loss functionを用いる

ここで、$a_k(\b{x})$ は位置xにおける特徴チャネルkのmaximum activationを表す。 Kはクラス数をあらわし、$p_k(\mathb{x})$は近似されたmaximum関数である。例として、発火の最大値を持つkに対して、 $p_k(\mathb{x})\ne{1}$ であり、その他のkに対しては$p_k(\mathb{x})\ne{0}$である。

その後、各画素xの正解ラベルを表す$l$におけるmaximum activationに対して$w(\mathb{x})$とのcross entropyをとる。ここで$w(\mathb{x})$は学習時に特定の画素の重要度を高めるために設けられたweight mapであり、下記式で表される。

Experiments

512x512画像30枚で学習
対となるラベルデータは細胞(白)、背景(黒)から構成される白黒データ

評価指標

EM segmentation challengeではWarping Error、Rand Error、Pixel Error
ISBI cell tracking challenge 2015ではIOU

茶感(茶山の雑感)

Elastic deformationは残念ながら他のデータセットに対して効果がうすそう
背景オタクなので後半の失速感が否めない
githubのMDでLaTeXがかけないことがわかり、そもそも文法的に合ってるのか確認できない事態に。

おも論文

[1] Ciresan, D.C., Gambardella, L.M., Giusti, A., Schmidhuber, J.: Deep neural net- works segment neuronal membranes in electron microscopy images. In: NIPS. pp. 2852–2860 (2012) [9] Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation (2014), arXiv:1411.4038 [cs.CV]

おもリンク

チェイナ‐君U-Net実装(in pix2pix example) https://github.com/pfnet-research/chainer-pix2pix/blob/master/net.py Fully-CNNがもたらしてくれたもの - オタクの情弱日記 http://kaidlc.hatenablog.com/entry/2016/12/17/203348

yuckYew / paper-survey