hkefka385 / paper_reading

3 stars 1 forks source link

Pay Less Attention with Lightweight and Dynamic Convolutions #21

Open hkefka385 opened 4 years ago

hkefka385 commented 4 years ago

0. 論文

Journal/Conference: ICLR 2019 Title: Pay Less Attention with Lightweight and Dynamic Convolutions Authors: Felix Wu, Angela Fan, Alexei Baevski, Yann Dauphin, Michael Auli URL: https://openreview.net/forum?id=SkVhlh09tX

1. どんなもの?

近年主流のSelf-attention-baseのモデルではなくCNN、しかも軽量化されたCNNを適用したモデルで機械翻訳・言語モデル・文書要約といったタスクでSOTAに近いスコアを達成した.

2. 先行研究と比べてどこがすごい?

Self-attentionではなくCNNをbaseに機械翻訳などのタスクで最高精度を達成しようとした点

3. 技術や手法のキモはどこ?

CNNを軽量化,self-attentionに似た特徴量を獲得するための動的な重み付け手法として以下の2点を提案 ・Lightweight convolution:Depthwise convolutionの発展型で,学習パラメータをへらすための手法.CNNのチャンネル数をグループごとに分割し,グループごとのパラメータは同じものと仮定し学習を行う. ・Dynamic convolution: 畳み込みのパラメータを動的に学習する手法.Self-attentionと似ていて,入力全体を考慮して学習を行う.ただし扱うコンテキストはメモリの問題?からカーネルで考慮できる範囲まで.

スクリーンショット 2020-06-12 20 52 42

4. どうやって有効だと検証した?

機械翻訳や言語モデルのタスクに適用して有効性を検証 例:機械翻訳の結果

スクリーンショット 2020-06-12 20 52 54

5. 議論はある?

「 ICLR2019では機械翻訳系の論文が11本あって,そのうち6本がSOTAを主張してた」というのはかなり面白いですね (https://twitter.com/_Ryobot/status/1047080522080342016)

6.次に読むべき論文は?

以前の研究のDepthwise convolutionに関する論文 Chollot. 2016. Xception: Deep Learning with Depthwise Separable Convolutions. CVPR 2017.