OnizukaLab / ConferenceProceedings

NLP 班論文読み会用のリポジトリ
8 stars 1 forks source link

Deep contextualized word representation #8

Closed junya-takayama closed 6 years ago

junya-takayama commented 6 years ago

一言でいうと

すっごい深いBi-LSTM言語モデルの内部状態から Word Embedding を獲得する

論文リンク

http://aclweb.org/anthology/N18-1202

著者/所属機関

Matthew E. Peters†, Mark Neumann†, Mohit Iyyer†, Matt Gardner† Christopher Clark, Kenton Lee, Luke Zettlemoyer†*

†Allen Institute for Artificial Intelligence *Paul G. Allen School of Computer Science & Engineering, University of Washington

投稿日付(yyyy/MM/dd)

概要

新規性・差分

従来の単語分散表現のほとんどは文脈に依らず単語と分散表現は一対一対応しているが,本提案手法では言語モデルを用いて単語分散表現を動的に獲得しており,これによって文法特性や多義性を扱うことができるようになった. 深くスタックした LSTM のうちどの層を重視するかを応用タスクごとに学習することで,様々なタスクへの転移学習が可能に.

手法

  1. Bi-LSTM 言語モデルの学習 多層 Bi-LSTM を用いた言語モデルを大規模なコーパスで学習させる.

  2. ELMo

    • t 番目の単語の ELMo はその時刻における Embedding 層の出力と Bi-LSTM 各層の出力を線形結合したもの(L層stackしているのであれば,2L + 1 個のベクトルの線形結合)
    • 線形結合の重み s(どの層を重視するか)はタスクごとに最適化
    • ELMo そのものの重要度 γ もタスクごとに最適化 elmo
  3. 教師ありタスクへの適用

    • エンドタスクにおける Embedding 層の出力に ELMo を concatenate して利用
    • タスクによっては RNN 層の出力にも ELMo を適用

結果

簡単なベースラインに ELMo を追加するだけで,質問応答(Question Answering),テキスト含意認識(Textual Entailment),感情分析(Sentiment Analysis)など多くのタスクで SOTA モデルに匹敵もしくはそれ以上のスコアを達成.

results

コメント

エンドタスクへの転移において ELMo そのものを再学習する必要がない(線形結合の重みだけ学習すれば良い)という点で使いやすいのではないかと感じた. 日本語で試したい(計算資源をたくさん持ってるひとたちがやって公開してくれると良いなー)

NomotoEriko commented 6 years ago

深いところの LSTM の内部表現を使うお気持ちはわかるのですが,concat とかじゃなくて重み付き平均なののお気持ちを知りたい.

NomotoEriko commented 6 years ago

@junya-takayama ↑回答お願いします!

junya-takayama commented 6 years ago

concatして無駄にでかくなったベクトルからエンドタスク(往々にして大したデータ量がない)のモデルを学習させるのはつらい(と思う).線形結合にしてどの層の情報が必要かを学習させる方が簡単(な気がする)

NomotoEriko commented 6 years ago

次元を小さくしたいのはわかるのですが,なぜ線型結合でいいのか... 解せない...

junya-takayama commented 6 years ago

んんん・・・そもそもRNN通す前と通した後のアレをresidual connectionしてるわけだし,前後のアレを線形結合しても別に問題ない気がする・・・

NomotoEriko commented 6 years ago

そういえばリサイジュアってましたね.んじゃ納得です.