Open zerebom opened 4 years ago
Spatial pyramid poolとEncoder-Decoderを組み込んだ、早くて精度の高いモデル。 PASCAL VOCで89%を記録。
AtrousConvを使うことで、精度とスピードのトレードオフをできるようにした
Depthwise separable conv 畳み込みを特徴量マップ方向とチャネル方向に分解することで、パラメータ数を減らし速度向上を図る手法
Spatial pyramid conv レートを色々にして、プーリングすることでマルチスケールな情報を手に入れる手法
atrous conv レートを色々にして、マルチスケールな情報を手に入れる、明示的に解像度を調製できる畳み込みの手法
Deeplabv3 as encoder Xception をImageCrasificationからSSに転用するためにいくつかの改良をした
Proposed decoder DeepLabv3では1/16になった特徴量をBilinearly upsampledで一度で戻していたが、これでは細かい部分の復元がうまく行かないことが多い。 LowLevelの特徴量と、4倍Upsampleした特徴量をConcatすることでこれを克服する。 LowLevelのほうがチャネル数が多いので、Convを挟んで減らしてからConcatする。こうすることで学習の難易度を下げる。
Modified Aligned Xception SSに適応するために、以下の改良をした
w