agatan / paper-reading-notes

読んだ論文の管理とメモ置き場
5 stars 0 forks source link

Spatial Transformer Networks #5

Open agatan opened 5 years ago

agatan commented 5 years ago

ちょっと古いけど、CNN の途中でアフィン変換を挟める Spatial Transformer を提案した論文。 アフィン変換のパラメータ 6 つを出力するネットワークと、そのパラメータを使って(微分可能なまま) bilinear interpolation で feature map を変換するモジュールから成る。 既存の CNN に簡単にくっつけられる & 並列につけたりできるのでいろいろ使いみちがあって面白い。

典型的には↓のような歪んだ画像を扱うタスクを解くのに便利。 image

他にも Attention みたいな仕組みだと考えることもできて、画像全体のうち「注目すべき部分」だけ切り出すことでクラス分類の精度向上にも活用できる。

おまけ: STN-OCR: A single Neural Network for Text Detection and Text Recognition は Spatial Transformer を使って Scene Text Detection → Recognition を end-to-end でつなげたもの。