YoheiIwasaki / paper-survey

1 stars 0 forks source link

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding #9

Open kwgit-public opened 3 years ago

kwgit-public commented 3 years ago
  1. 論文情報

  2. どんなもの?

    • 教師なし学習によって言語表現を学習する(事前学習)自然言語モデル
    • 事前学習されたモデルは、各タスク(GLUE etc)へfine-tuningすることができる
    • GLUEの11ある自然言語処理タスクにおいてstate of the artを更新
  3. 先行研究と比べてどこがすごい?

    • 事前学習した言語表現をタスクに利用する手法として大きく2つある
    • feature-based: Word2Vec,ELMoのような単語ベクトル化手法
    • fine-tuning: GPTのような事前学習されたDNNモデルを利用する手法
    • GPTなどの既存手法はunidirectional、つまり前に出現している単語情報のみから学習しているが、多くの自然言語処理タスクでは、単語の前後情報から文脈を学習するべき
  4. 技術や手法のキモは?

    • bidirectionalで学習するためにMasked Language Model(MLM)の目的関数を追加、ランダムにトークンをマスクして、そのトークンを推測するタスクを解く
  5. どうやって有効と検証した?

    • GLUEのタスクにfine-tuningして既存モデルとの比較評価 Screenshot from 2021-08-08 11-34-59 Screenshot from 2021-08-08 11-37-43
  6. 議論はある?

    • 大量のデータで事前学習したロバスト性のある言語モデルをfine-tuningすることでcatastrophic forgetting(壊滅的忘却)は起きるのか、どれほど考慮すべきか
  7. 次に読むべき論文は?

  8. その他