In-Place Activated BatchNorm for Memory-Optimized Training of DNNs

一言でいうと

activationが逆変換可能(~= 一様増加, LeakeyReluなど）の場合、BatchNormを少し修正すれば、学習時のbatchnorm+activation後のtensorの保存を省略でき、最大50%メモリ省略できる。

スクリーンショット 2020-07-08 08-38-07

Mapillary Research

2018/10/26

スクリーンショット 2020-07-08 08-34-31

batchsize同条件ならbatchnormより劣化する？
また、batchsize同条件の精度比較や、メモリ結局いくら使うかの表グラフがないのが解せない。