izuna385 / papers

These commits are old ones, including https://github.com/izuna385/papers/wiki . The latest commit is here: https://github.com/izuna385/papers_reading
0 stars 0 forks source link

Joint Embedding of Words and Labels for Text Classification #5

Closed izuna385 closed 6 years ago

izuna385 commented 6 years ago

なぜ解説を書こうと考えたか  研内の発表において、念入りに準備したつもりであったが、伝える練習を怠ってしまい炎上したため。(準備に時間をかけたことが仇となり、論文を自明なものだと思いこんでしまった、また、要点を伝える技術の練習不足を痛感した。)

準備に時間を掛けることとは別に、伝える練習も必要だと考えたため。

Markdownの練習も目的の一つです。

あとはこの辺りもきっかけになっています。

論文 https://arxiv.org/abs/1805.04174

[1805.04174] Joint Embedding of Words and Labels for Text Classification

論文概要 テキスト分類問題を、ラベル単語の埋め込み+テキスト内文章の埋め込み という枠組みで捉え、ラベルと分類対象テキストとの互換性を測定するattenntionフレームワークを提唱。

文書分類タスクの定式化 f:id:mitosoup:20180716101001p:plain

 論文内の図を用いて説明します。また、論文内ではローマ字大文字太字が行列、ローマ字小文字太字がベクトルで統一 されていますので、その記法をそのまま流用します。

 文書分類タスクはおおよそ、上の図の流れで文章を分類します。まず、最も簡単な文章行列は、One-hot表現を用いて以下のように表されます。つまり、文書内に存在している全語彙について次元を用意してあげれば、理論上One-hot ベクトルで一単語を表示することが可能です。これを用いることで、文章行列Xを取得できます。

f:id:mitosoup:20180716103312p:plain

 One-hot Vectorのまま学習を行おうとした場合、次元数などの観点から計算量コストが大変なことがあります。それを一定の小さな次元数に埋め込む研究がこれまでなされてきました。代表例としては Mikolov et al(2013)*1などがそれに相当します。

 これを用いて、One-hotなベクトルの系列であるXをP次元に埋め込んだ場合、新しい文章行列Vを得ます。

f:id:mitosoup:20180716104906p:plain

このような文章行列を得た後、CNN,RNNなどを用いて文章行列を更にベクトル化し、Classifier に掛けることが、文書分類(Text classification)の一連の流れになります。

 f:id:mitosoup:20180716105450p:plain

関連研究、背景について  背景を交えつつ、論文が解決しようとした点について説明します。  解決しようとした点をまとめると、以下になります。

classification の正解ラベルそのものも、文章のword空間を用いてembeddingし、学習にembeddingの情報を取り入れた。 従来に比してパラメータ数の少ない、シンプルなモデルを提唱し、モデルそのものの解釈性も保持した。 ラベルのembeddingそのものを、attentionフレームワークに活用した最初の事例。 医療テキストを用いて、classification時に割り当てられるラベルと関連する単語を取り出すことに成功し、実際の応用例を明示した。  ラベルのembeddingを活用する事例は主に画像の分類や*2やマルチモーダル分野において有効であると示されていましたが、NLPの研究でラベルembeddingを分類に利用することはこれまでほとんど成されていませんでした。  本論文では、対象タスクと直接関係のあるwordにattentionが強くかかるようなモデルを構成しています。そして、次のモデル概要にて説明するように、確かにそのようなモデルであると解釈することが可能です。

train手法、モデル概要  まず、正解データをどのように学習させるかについて定式化し、次にモデルを説明します。

学習 正解データ群S及び、関数fを以下のように定義します。 f:id:mitosoup:20180716112601p:plain

 Xは先程説明した文章行列、yはそれに対応する正解ラベルです。Xをyに移す良い写像fを学習させることが目的になります。良い写像とはすなわち、以下のLoss関数を最小化させるような写像のことを指します。

f:id:mitosoup:20180716113029p:plain

δはLossを吐き出す関数で、本論文では0/1 Lossとしています。

モデル  以下に提案モデルを引用します。

 f:id:mitosoup:20180716113548p:plain

 従来の手法と異なるのは、ラベルyそのものをも埋め込み空間に飛ばし、文章行列Xと作用(図ではf:id:mitosoup:20180716113909p:plain)させることで、文章-ラベル空間の相互作用行列Gを得て、Gを用いてattentionβを得ます。attentionを用いることで、よりラベルと関連のあるwordが強調された文章ベクトルzが得られるという寸法です。

  文章と同じ空間に、K種類のラベルをembeddingします。ですのでラベルもまたP次元ベクトルとなります。

f:id:mitosoup:20180716114558p:plain

 また、論文内でGは次のように定義されます。

f:id:mitosoup:20180716114840p:plain

 ただし、f:id:mitosoup:20180716114900p:plain は、行列の各要素を、対応する同じ位置の要素で割ることを示します。  また、f:id:mitosoup:20180716114959p:plain の(k,l)成分は、次のように定義されています。

f:id:mitosoup:20180716115040p:plain

 f:id:mitosoup:20180716115108p:plain の(k,l)成分は計算してみると、クラスkのembeddingとl番目のword embeddingの内積になることが分かります。

よって、結局のところ、行列Gの(k,l)成分は、クラスkのラベルembeddingと、文章のl番目の単語embeddingとのコサイン類似度を吐き出す行列になります。

 次に、文章内のl番目の単語に注目したとき、この単語を中心としてウインドウサイズrを指定することを考えます。平たく言えば、フレーズなどの、一定の単語のまとまりを表す単語行列とも捉えられます。つまり、 f:id:mitosoup:20180716115936p:plain は、(2r+1) * K の行列です。これを、 ReLU関数に噛ませてmax-poolingします。

f:id:mitosoup:20180716120511p:plain f:id:mitosoup:20180716120529p:plain

この手続を1文章の各単語について行うことで、attentionベクトルmを得ます。このmをソフトマックスにかけたものをattentionの重みとして用い、この重みを用いて重み付け文章zを生成します。

f:id:mitosoup:20180716120953p:plain

 途中でmax-poolingを取っているので、ここでクラスの情報は潰されます。ですので、max-poolingして得られたmは、文章空間とラベル空間の互換性を担う橋渡し的存在、と解釈することができます。その橋渡しがどれほど強いかに応じて、文章にattentionを掛けている、と解釈することが可能です。

モデルの検証  種々のデータセットを用いて、モデルが出すaccuracyについて検証しています。著者らは、多クラスの場合、labelの埋め込みが分類に寄与するが、2値分類などではそのありがたみが発揮されないと述べています。

f:id:mitosoup:20180716121822p:plain

 評価についてはAccuracyのみでの評価ですが、パラメータの削減やモデルの簡明さもまた、従来の研究と比べた本論文の強みであると著者らは述べています。

 また、著者らはattentionのvisualizationも示しています。

f:id:mitosoup:20180716122200p:plain

 上に引用したのは、clinical text(診断ノート)にattentionがなされた様子です。clinical text内のタスクの一つとして、診断コードICDの割当が存在し、これはtext classification そのものであると言えます。著者らは、本論文の手法を用いたattention visualizationにより、臨床士の読む負担の減少に役立ちうると述べています。

*1:https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

*2:https://ieeexplore.ieee.org/document/7293699/