Open IkokObi opened 4 years ago
BERT以降,モデルサイズを大きくすることで精度の向上を図るトレンドがあるが,その潮流とは異なり,パラメータ数の削減を目的とした新モデルの提案(ALBERTはA Lite BERTの略).同じモデル構成で比較すると精度は落ちるが,パラメータ数が少ない分モデルを大きくすることが可能になり,結果としてBERT largeとほぼ同じ性能のモデルが約1/5のパラメータ数で達成された.また,事前学習のタスクとして,文の順序入れ替え判定を新たに導入し,精度向上に寄与した.
https://arxiv.org/abs/1909.11942
Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut
2019/9/26
V
H
O(V x H)
E
O(V x E + E x H)
V = 30,000, E = O(100), H = O(1000)
モデル構造はOrignal BERTとほぼ同じ.異なるのは2点
事前学習のタスクとして,NSPを廃止し,SOPを解かせている
また,マスク単語予測(MLM: masked language modeling)ではn-gram maskingを行なっている(n=3)
モデル構成,パラメータ数と精度の関係は以下の表の通り.最右列はトレーニングスピード
E = 128
ざっくり言うと
BERT以降,モデルサイズを大きくすることで精度の向上を図るトレンドがあるが,その潮流とは異なり,パラメータ数の削減を目的とした新モデルの提案(ALBERTはA Lite BERTの略).同じモデル構成で比較すると精度は落ちるが,パラメータ数が少ない分モデルを大きくすることが可能になり,結果としてBERT largeとほぼ同じ性能のモデルが約1/5のパラメータ数で達成された.また,事前学習のタスクとして,文の順序入れ替え判定を新たに導入し,精度向上に寄与した.
キーワード
1. 情報
論文リンク
https://arxiv.org/abs/1909.11942
著者
Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut
投稿日付
2019/9/26
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
V
,隠れ層サイズH
の場合に通常はO(V x H)
となるが,サイズE
のボトルネック層を導入することでO(V x E + E x H)
とした.V = 30,000, E = O(100), H = O(1000)
としているので,約1/10になる.4. どうやって有効だと検証した?
E
の影響(Table 4)5. 議論はある?
6. 次に読むべき論文は?