Spatial Transformer Networks

NIPS 2015
http://papers.nips.cc/paper/5854-spatial-transformer-networks.pdf

ちょっと古いけど、CNN の途中でアフィン変換を挟める Spatial Transformer を提案した論文。アフィン変換のパラメータ 6 つを出力するネットワークと、そのパラメータを使って（微分可能なまま） bilinear interpolation で feature map を変換するモジュールから成る。既存の CNN に簡単にくっつけられる & 並列につけたりできるのでいろいろ使いみちがあって面白い。

典型的には↓のような歪んだ画像を扱うタスクを解くのに便利。

他にも Attention みたいな仕組みだと考えることもできて、画像全体のうち「注目すべき部分」だけ切り出すことでクラス分類の精度向上にも活用できる。

おまけ: STN-OCR: A single Neural Network for Text Detection and Text Recognition は Spatial Transformer を使って Scene Text Detection → Recognition を end-to-end でつなげたもの。

agatan / paper-reading-notes

Spatial Transformer Networks #5