Open hkefka385 opened 4 years ago
Journal/Conference: ICLR 2019 Title: Pay Less Attention with Lightweight and Dynamic Convolutions Authors: Felix Wu, Angela Fan, Alexei Baevski, Yann Dauphin, Michael Auli URL: https://openreview.net/forum?id=SkVhlh09tX
近年主流のSelf-attention-baseのモデルではなくCNN、しかも軽量化されたCNNを適用したモデルで機械翻訳・言語モデル・文書要約といったタスクでSOTAに近いスコアを達成した.
Self-attentionではなくCNNをbaseに機械翻訳などのタスクで最高精度を達成しようとした点
CNNを軽量化,self-attentionに似た特徴量を獲得するための動的な重み付け手法として以下の2点を提案 ・Lightweight convolution:Depthwise convolutionの発展型で,学習パラメータをへらすための手法.CNNのチャンネル数をグループごとに分割し,グループごとのパラメータは同じものと仮定し学習を行う. ・Dynamic convolution: 畳み込みのパラメータを動的に学習する手法.Self-attentionと似ていて,入力全体を考慮して学習を行う.ただし扱うコンテキストはメモリの問題?からカーネルで考慮できる範囲まで.
機械翻訳や言語モデルのタスクに適用して有効性を検証 例:機械翻訳の結果
「 ICLR2019では機械翻訳系の論文が11本あって,そのうち6本がSOTAを主張してた」というのはかなり面白いですね (https://twitter.com/_Ryobot/status/1047080522080342016)
以前の研究のDepthwise convolutionに関する論文 Chollot. 2016. Xception: Deep Learning with Depthwise Separable Convolutions. CVPR 2017.
0. 論文
Journal/Conference: ICLR 2019 Title: Pay Less Attention with Lightweight and Dynamic Convolutions Authors: Felix Wu, Angela Fan, Alexei Baevski, Yann Dauphin, Michael Auli URL: https://openreview.net/forum?id=SkVhlh09tX
1. どんなもの?
近年主流のSelf-attention-baseのモデルではなくCNN、しかも軽量化されたCNNを適用したモデルで機械翻訳・言語モデル・文書要約といったタスクでSOTAに近いスコアを達成した.
2. 先行研究と比べてどこがすごい?
Self-attentionではなくCNNをbaseに機械翻訳などのタスクで最高精度を達成しようとした点
3. 技術や手法のキモはどこ?
CNNを軽量化,self-attentionに似た特徴量を獲得するための動的な重み付け手法として以下の2点を提案 ・Lightweight convolution:Depthwise convolutionの発展型で,学習パラメータをへらすための手法.CNNのチャンネル数をグループごとに分割し,グループごとのパラメータは同じものと仮定し学習を行う. ・Dynamic convolution: 畳み込みのパラメータを動的に学習する手法.Self-attentionと似ていて,入力全体を考慮して学習を行う.ただし扱うコンテキストはメモリの問題?からカーネルで考慮できる範囲まで.
4. どうやって有効だと検証した?
機械翻訳や言語モデルのタスクに適用して有効性を検証 例:機械翻訳の結果
5. 議論はある?
「 ICLR2019では機械翻訳系の論文が11本あって,そのうち6本がSOTAを主張してた」というのはかなり面白いですね (https://twitter.com/_Ryobot/status/1047080522080342016)
6.次に読むべき論文は?
以前の研究のDepthwise convolutionに関する論文 Chollot. 2016. Xception: Deep Learning with Depthwise Separable Convolutions. CVPR 2017.