Pay Less Attention with Lightweight and Dynamic Convolutions

0. 論文

Journal/Conference: ICLR 2019 Title: Pay Less Attention with Lightweight and Dynamic Convolutions Authors: Felix Wu, Angela Fan, Alexei Baevski, Yann Dauphin, Michael Auli URL: https://openreview.net/forum?id=SkVhlh09tX

1. どんなもの？

近年主流のSelf-attention-baseのモデルではなくCNN、しかも軽量化されたCNNを適用したモデルで機械翻訳・言語モデル・文書要約といったタスクでSOTAに近いスコアを達成した．

2. 先行研究と比べてどこがすごい？

Self-attentionではなくCNNをbaseに機械翻訳などのタスクで最高精度を達成しようとした点

3. 技術や手法のキモはどこ？

CNNを軽量化，self-attentionに似た特徴量を獲得するための動的な重み付け手法として以下の2点を提案・Lightweight convolution：Depthwise convolutionの発展型で，学習パラメータをへらすための手法．CNNのチャンネル数をグループごとに分割し，グループごとのパラメータは同じものと仮定し学習を行う．・Dynamic convolution: 畳み込みのパラメータを動的に学習する手法．Self-attentionと似ていて，入力全体を考慮して学習を行う．ただし扱うコンテキストはメモリの問題？からカーネルで考慮できる範囲まで．

4. どうやって有効だと検証した？

機械翻訳や言語モデルのタスクに適用して有効性を検証例：機械翻訳の結果

5. 議論はある？

「 ICLR2019では機械翻訳系の論文が11本あって，そのうち6本がSOTAを主張してた」というのはかなり面白いですね (https://twitter.com/_Ryobot/status/1047080522080342016)

6.次に読むべき論文は？

以前の研究のDepthwise convolutionに関する論文　Chollot. 2016. Xception: Deep Learning with Depthwise Separable Convolutions. CVPR 2017.

hkefka385 / paper_reading