DeepLabv3+

introduction

Spatial pyramid poolとEncoder-Decoderを組み込んだ、早くて精度の高いモデル。 PASCAL VOCで89％を記録。

AtrousConvを使うことで、精度とスピードのトレードオフをできるようにした

methods

Depthwise separable conv 畳み込みを特徴量マップ方向とチャネル方向に分解することで、パラメータ数を減らし速度向上を図る手法
Spatial pyramid conv レートを色々にして、プーリングすることでマルチスケールな情報を手に入れる手法
atrous conv レートを色々にして、マルチスケールな情報を手に入れる、明示的に解像度を調製できる畳み込みの手法
Deeplabv3 as encoder Xception をImageCrasificationからSSに転用するためにいくつかの改良をした
1. ICでは入力が32分の1になって(output stride =32)最後の特徴量マップとなるが、SSではoutput strideを16か8にするために最後の出力マップの一個か2個を取り除く。そしてAtrous　Convを導入する。さらにASPPも実行する。
Proposed decoder DeepLabv3では1/16になった特徴量をBilinearly upsampledで一度で戻していたが、これでは細かい部分の復元がうまく行かないことが多い。 LowLevelの特徴量と、4倍Upsampleした特徴量をConcatすることでこれを克服する。 LowLevelのほうがチャネル数が多いので、Convを挟んで減らしてからConcatする。こうすることで学習の難易度を下げる。
Modified Aligned Xception SSに適応するために、以下の改良をした
1. 層を深くした
2. maxpool層をすべてStride付きのdepthwise sep convに変換した。
3. extra batch normとReLuを導入した。

Result

Decoderの導入はパラメータの数の割に精度の上昇が高い
output strideは16がコスパが一番良い。8だと精度が高い
lowlevel-featureのチャネル数は48が一番良い
Pretrainは強力 1.Trimapがある方が精度が高い

zerebom / paper-books

Encoder-Decoder with Atrous Separable Convolution(DeepLabv3+) #1

DeepLabv3+

introduction

methods

Result