Closed junya-takayama closed 6 years ago
深いところの LSTM の内部表現を使うお気持ちはわかるのですが,concat とかじゃなくて重み付き平均なののお気持ちを知りたい.
@junya-takayama ↑回答お願いします!
concatして無駄にでかくなったベクトルからエンドタスク(往々にして大したデータ量がない)のモデルを学習させるのはつらい(と思う).線形結合にしてどの層の情報が必要かを学習させる方が簡単(な気がする)
次元を小さくしたいのはわかるのですが,なぜ線型結合でいいのか... 解せない...
んんん・・・そもそもRNN通す前と通した後のアレをresidual connectionしてるわけだし,前後のアレを線形結合しても別に問題ない気がする・・・
そういえばリサイジュアってましたね.んじゃ納得です.
一言でいうと
すっごい深いBi-LSTM言語モデルの内部状態から Word Embedding を獲得する
論文リンク
http://aclweb.org/anthology/N18-1202
著者/所属機関
Matthew E. Peters†, Mark Neumann†, Mohit Iyyer†, Matt Gardner† Christopher Clark, Kenton Lee, Luke Zettlemoyer†*
†Allen Institute for Artificial Intelligence *Paul G. Allen School of Computer Science & Engineering, University of Washington
投稿日付(yyyy/MM/dd)
概要
新規性・差分
従来の単語分散表現のほとんどは文脈に依らず単語と分散表現は一対一対応しているが,本提案手法では言語モデルを用いて単語分散表現を動的に獲得しており,これによって文法特性や多義性を扱うことができるようになった. 深くスタックした LSTM のうちどの層を重視するかを応用タスクごとに学習することで,様々なタスクへの転移学習が可能に.
手法
Bi-LSTM 言語モデルの学習 多層 Bi-LSTM を用いた言語モデルを大規模なコーパスで学習させる.
ELMo
教師ありタスクへの適用
結果
簡単なベースラインに ELMo を追加するだけで,質問応答(Question Answering),テキスト含意認識(Textual Entailment),感情分析(Sentiment Analysis)など多くのタスクで SOTA モデルに匹敵もしくはそれ以上のスコアを達成.
コメント
エンドタスクへの転移において ELMo そのものを再学習する必要がない(線形結合の重みだけ学習すれば良い)という点で使いやすいのではないかと感じた. 日本語で試したい(計算資源をたくさん持ってるひとたちがやって公開してくれると良いなー)