BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

論文情報
- paper
- hugging face
どんなもの？
- 教師なし学習によって言語表現を学習する（事前学習）自然言語モデル
- 事前学習されたモデルは、各タスク（GLUE etc）へfine-tuningすることができる
- GLUEの11ある自然言語処理タスクにおいてstate of the artを更新
先行研究と比べてどこがすごい？
- 事前学習した言語表現をタスクに利用する手法として大きく２つある
- feature-based: Word2Vec,ELMoのような単語ベクトル化手法
- fine-tuning: GPTのような事前学習されたDNNモデルを利用する手法
- GPTなどの既存手法はunidirectional、つまり前に出現している単語情報のみから学習しているが、多くの自然言語処理タスクでは、単語の前後情報から文脈を学習するべき
技術や手法のキモは？
- bidirectionalで学習するためにMasked Language Model(MLM)の目的関数を追加、ランダムにトークンをマスクして、そのトークンを推測するタスクを解く
どうやって有効と検証した？
- GLUEのタスクにfine-tuningして既存モデルとの比較評価
議論はある？
- 大量のデータで事前学習したロバスト性のある言語モデルをfine-tuningすることでcatastrophic forgetting(壊滅的忘却)は起きるのか、どれほど考慮すべきか
次に読むべき論文は？
- What Happens To BERT Embeddings During Fine-tuning?
その他

YoheiIwasaki / paper-survey

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding #9