kacky24 / papers

my publications and short summaries of papers I have read
3 stars 1 forks source link

PTE: Predictive Text Embedding through Large-scale Heterogeneous Text Networks #18

Closed kacky24 closed 5 years ago

kacky24 commented 6 years ago

short summary

テキストデータに対する半教師あり表現学習手法predictive text embedding(PTE)の提案。

skip-gramやparagraph vectorなどの教師なし学習による分散表現は、特定のタスクにおいてはCNNのようなend-to-endのdeep learningフレームワークよりパフォーマンスが落ちる(CNNなどでは、タスクにおけるラベル情報を学習している) 一方、deep learning modelでは、計算コスト、大量のラベル付きデータがいる、多くのパラメータチューニングが必要といった問題がある。 ⇒ PTEは教師なし学習の利点を生かしつつ、ラベル情報も表現学習に利用する。

ネットワークの定義

以下のネットワークを用意

アルゴリズム

heterogeneous text networkは、3つの2部グラフから構成されているととらえられる。(wordは共有) 2部グラフのembeddingは、LINEを適用して行う。 heterogeneous text networkのembeddingは、3つの2部グラフのembeddingの目的関数の和を最小化するように行う。

テキストの埋め込みは、単純に単語の和をとる。

実験結果

テキスト分類タスクにおいて、教師なし学習によるSOTAは大きく上回った。 CNNとの比較では、長い文章では上回り、短文章では同程度だった。 ただ、より効率的で、モデルパラメータの影響が少ない。

author

Jian Tang Microsoft Research Asia jiatang@microsoft.com Meng Qu∗ Peking University mnqu@pku.edu.cn Qiaozhu Mei University of Michigan qmei@umich.edu

URL

https://arxiv.org/pdf/1508.00200.pdf

year

2015