Open agatan opened 5 years ago
ちょっと古いけど、CNN の途中でアフィン変換を挟める Spatial Transformer を提案した論文。 アフィン変換のパラメータ 6 つを出力するネットワークと、そのパラメータを使って(微分可能なまま) bilinear interpolation で feature map を変換するモジュールから成る。 既存の CNN に簡単にくっつけられる & 並列につけたりできるのでいろいろ使いみちがあって面白い。
典型的には↓のような歪んだ画像を扱うタスクを解くのに便利。
他にも Attention みたいな仕組みだと考えることもできて、画像全体のうち「注目すべき部分」だけ切り出すことでクラス分類の精度向上にも活用できる。
おまけ: STN-OCR: A single Neural Network for Text Detection and Text Recognition は Spatial Transformer を使って Scene Text Detection → Recognition を end-to-end でつなげたもの。
ちょっと古いけど、CNN の途中でアフィン変換を挟める Spatial Transformer を提案した論文。 アフィン変換のパラメータ 6 つを出力するネットワークと、そのパラメータを使って(微分可能なまま) bilinear interpolation で feature map を変換するモジュールから成る。 既存の CNN に簡単にくっつけられる & 並列につけたりできるのでいろいろ使いみちがあって面白い。
典型的には↓のような歪んだ画像を扱うタスクを解くのに便利。
他にも Attention みたいな仕組みだと考えることもできて、画像全体のうち「注目すべき部分」だけ切り出すことでクラス分類の精度向上にも活用できる。
おまけ: STN-OCR: A single Neural Network for Text Detection and Text Recognition は Spatial Transformer を使って Scene Text Detection → Recognition を end-to-end でつなげたもの。