[2019] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

IkokObi commented 4 years ago

ざっくり言うと

BERT以降，モデルサイズを大きくすることで精度の向上を図るトレンドがあるが，その潮流とは異なり，パラメータ数の削減を目的とした新モデルの提案(ALBERTはA Lite BERTの略)．同じモデル構成で比較すると精度は落ちるが，パラメータ数が少ない分モデルを大きくすることが可能になり，結果としてBERT largeとほぼ同じ性能のモデルが約1/5のパラメータ数で達成された．また，事前学習のタスクとして，文の順序入れ替え判定を新たに導入し，精度向上に寄与した．

キーワード

BERT
parameter size reduction
model architecture

1. 情報

論文リンク

https://arxiv.org/abs/1909.11942

著者

Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut

投稿日付

2019/9/26

2. 先行研究と比べてどこがすごい？

パラメータ数を削減しつつ，下流タスクにおいてBERT largeと同等の精度を達成した

3. 技術や手法のキモはどこ？

行列分解と同様の発想で，embedding層を分解し，パラメータ数を大きく削減．
- 具体的にはvocabulary数V，隠れ層サイズHの場合に通常はO(V x H)となるが，サイズEのボトルネック層を導入することでO(V x E + E x H)とした．
- 実装される際には，V = 30,000, E = O(100), H = O(1000)としているので，約1/10になる．
Transformer層をparameter sharingで全て共通にすることでパラメータ数削減
事前学習タスクとしてBERTで用いられていたnext sentence prediction(NSP)は文内の単語を見るだけで判定できるものも多く，トピック判定のみで出来る容易なタスクであるとし，トピック判定では難しいsentence order prediction(SOP)を代わりに導入した．
dropoutを用いないことで，過学習せずに精度が向上したという結果も

4. どうやって有効だと検証した？

提案したポイントそれぞれについて，Original BERTを主に比較対象とし，検証実験を行なっている．
- モデルサイズ別の精度比較 (Table 3)
- ボトルネック層のサイズEの影響(Table 4)
- parameter sharingの方法の比較(Table 5)
- 事前学習タスクの影響(Table 6)

5. 議論はある？

パラメータ数は減少しているが，訓練時間や推論速度については大きく改善されているわけではない．
- 本文中では触れられていないが，推論速度は特に何も変化しないはず
- 訓練時間は若干改善している程度
parameter sharingの影響の考察で行われている，各層のoutputのoverlapをプロットした図が面白い
- parameter sharingをしても0に収束せず，一定の距離に落ち着く（振動している？）

6. 次に読むべき論文は？

Large Batch Optimization for Deep Learning: Training BERT in 76 minutes
- Yang You, Jing Li, Sashank Reddi, Jonathan Hseu, Sanjiv Kumar, Srinadh Bhojanapalli, Xiaodan Song, James Demmel, Kurt Keutzer, Cho-Jui Hsieh
- 2019/4/1
- https://arxiv.org/abs/1904.00962
- 学習の高速化を目的とした最適化手法（LAMB optimizerと呼ばれる）
- layerwiseに学習率を変化させる
StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding
- Wei Wang, Bin Bi, Ming Yan, Chen Wu, Zuyi Bao, Jiangnan Xia, Liwei Peng, Luo Si
- 2019/8/13
- https://arxiv.org/abs/1908.04577
- Table 13のEnsembleの結果で，ALBERTを超えているモデル
- ALBERT同様，NSPに代わる事前学習タスクを提案している(単語の順番をシャッフルしている？)

IkokObi commented 4 years ago

7. 実装の詳細

モデル構造はOrignal BERTとほぼ同じ．異なるのは2点
- embedding層にボトルネック層を導入して行列分解
- Transformer層をparameter sharing
事前学習のタスクとして，NSPを廃止し，SOPを解かせている
また，マスク単語予測(MLM: masked language modeling)ではn-gram maskingを行なっている(n=3)
モデル構成，パラメータ数と精度の関係は以下の表の通り．最右列はトレーニングスピード

IkokObi commented 4 years ago

8. データセット

事前学習で用いているのは，BOOKCORPUSとEnglish Wikipediaで合計約16GBのテキストデータ
精度検証で用いているのはGLUE, SQuAD, RACE
結果の表において，GLUEのタスク全ての結果は出てこない

IkokObi commented 4 years ago

9. 結果の詳細

表が沢山あるので詳細は割愛．各実験ごとに内容や結論をまとめると，
- Table 3 : 少ないパラメータ数でOriginal BERTと同等，高い精度を達成．学習時間は若干速い．
- Table 4 : ボトルネック層のサイズの影響．E = 128程度で十分．
- Table 5 : parameter sharingの方法比較．FFN層を共有すると精度が大きく落ちる．self-attention層は共有で精度がほぼ落ちない．
- Table 6 : 事前学習タスクの比較 (NSP vs SOP)．SOPで訓練されたモデルはNSPもある程度解けるが，逆はrandom guessと同程度になる．（比較は[CLS] tokenの出力を用いてlogistic回帰しているのだろうか...？）
- Table 7, 8, 10 : 隠れ層の深さ，幅の大きさ比較．いずれも適度なサイズが存在する．
- Table 9 : 学習epochではなく，学習時間を揃えた場合の精度比較 (BERT-large vs ALBERT-xxlarge)．
- Table 11 : 事前学習のデータ数比較．追加すると下流タスクの精度は全体的に上がるが，wikipedia関連のタスクは精度が落ちた（データ数よりも共通ドメインであることの影響が強い？）
- Table 12 : dropoutの有無を比較．無しでも過学習せず，一貫して精度が上がる．
- Table 13, 14 : Ensembleモデルとの比較．XLNetやRoBERTa等とも比較．

IkokObi commented 4 years ago

雑感&メモ

Original BERTからの差分や比較実験が分かりやすい
Transformer層でparameter sharingしているのであれば，固定点とかの議論が出来るのでは
モデルの軽量化という点では解決されているが，訓練時間や推論速度は特に解決されていないという印象
読む前はモデルの軽量化という印象が強かったが，事前学習の工夫などもあり面白い
こちらも参考にさせて頂いた (https://github.com/yoheikikuta/paper-reading/issues/38)

karakuri-ai / paper-readings

[2019] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations #57

ざっくり言うと

キーワード

1. 情報

論文リンク

著者

投稿日付

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

7. 実装の詳細

8. データセット

9. 結果の詳細

雑感&メモ