short summary

テキストデータに対する半教師あり表現学習手法predictive text embedding(PTE)の提案。

skip-gramやparagraph vectorなどの教師なし学習による分散表現は、特定のタスクにおいてはCNNのようなend-to-endのdeep learningフレームワークよりパフォーマンスが落ちる（CNNなどでは、タスクにおけるラベル情報を学習している）一方、deep learning modelでは、計算コスト、大量のラベル付きデータがいる、多くのパラメータチューニングが必要といった問題がある。 ⇒ PTEは教師なし学習の利点を生かしつつ、ラベル情報も表現学習に利用する。

ネットワークの定義

以下のネットワークを用意

word-word network(wordの共起ネットワーク）
word-document network(二部グラフ）
word-label network(二部グラフ）
Heterogeneous text network
- 上記の３つのネットワークをくっつけたもの
- labeled data, unlabeled data両方含む

アルゴリズム

heterogeneous text networkは、３つの２部グラフから構成されているととらえられる。(wordは共有）２部グラフのembeddingは、LINEを適用して行う。 heterogeneous text networkのembeddingは、３つの２部グラフのembeddingの目的関数の和を最小化するように行う。

テキストの埋め込みは、単純に単語の和をとる。

実験結果

テキスト分類タスクにおいて、教師なし学習によるSOTAは大きく上回った。 CNNとの比較では、長い文章では上回り、短文章では同程度だった。ただ、より効率的で、モデルパラメータの影響が少ない。

author

Jian Tang Microsoft Research Asia jiatang@microsoft.com Meng Qu∗ Peking University mnqu@pku.edu.cn Qiaozhu Mei University of Michigan qmei@umich.edu

URL

https://arxiv.org/pdf/1508.00200.pdf

year

2015

kacky24 / papers

PTE: Predictive Text Embedding through Large-scale Heterogeneous Text Networks #18