Open magicpieh28 opened 6 years ago
Author: Ruidan He, Wee Sun Lee, Hwee Tou Ng, Daniel Dahlmeier Link: https://www.comp.nus.edu.sg/~leews/publications/acl17.pdf
アテンションメカニズムを用いた初めての教師なしaspect抽出モデル。
ベースラインモデルは:
今までのaspect抽出の研究は下記の三つのアプローチでやってきた。それぞれの問題点としては:
規則ベース:定義された規則に基づいて単語抽出。よく出てくる名詞や名詞句を中心に探し、中でもWordNetを用いて同意語や反意語を持って判断。 → aspect用語をカテゴリ化して抽出しない。あらかじめ決めた記憶に依存しすぎて、aspect単語が名詞にだけ制限されてしまう。
教師あり学習:あらかじめラベリングされたデータを用いてaspect単語抽出。 → 大量のアノテーションデータやドメインに依存しすぎ。
教師なし学習:トピックモデルのように、ラベリングされたデータなしでaspect単語抽出。モデルのアウトプットは、一般的に、単語の分布。 → RBMモデル(2015年に提案されたモデル:aspectの抽出とともに、与えられたレビュー文に関連した感情も抽出。aspectも感情もRBMの分離された隠れ変数として扱う)の場合、品詞タグや感情を表す辞典的知識などの前提知識に依存しすぎ。
あらゆる情報を与える手法より、アテンションメカニズムの方がより適切な情報を抽出してくれる。 よって、教師なしニューラルモデルにアテンションをかける手法を提案する。
モデルの名前はABAE。 エンベディング空間で、最も近い単語(代表単語)を観察することで、各aspectがわかるaspectのエンベディングセットを学習することが目標。
下の二段階はattentionのため、上の二段階はreconstruction(線型結合)のため。流れは以下の様。 インプット:レビュー文中の単語インデクスのリスト
1)k-aspectに近い単語がわかる変換行列Mを用いて、単語をフィルタリング 2)グロバル文脈y_sとフィルタリングされた単語の内積を求めることで、フィルタリングされた単語と文章の関係性がわかる
ai : 正の重み e{w_i} : ワードエンベディング w_i:i番目の単語
λは、規則単語の重みを調節するハイパーパラメータ。
Citysearch corpus:レストランのレビュー BeerAdvocate:ビールのレビュー
抽出されたaspect単語
ベースラインモデルとの比較(レストラン)
ベースラインとの比較(ビール)
アテンション適用したモデル(ABAE)とアテンション適用していないモデル(ABAE-)の比較
→ アテンションの力がわかる
LDAと比べて優れた性能を見せた。 ABAEは単純にクオリティの高いaspectを抽出しただけでなく、従来の手法より効率よく抽出できるということが証明できた。
Coupled Multi-Layer Attentions for Co-Extraction of Aspect and Opinion Terms http://www.aaai.org/Conferences/AAAI/2017/PreliminaryPapers/15-Wang-W-14441.pdf
https://github.com/ruidan/Unsupervised-Aspect-Extraction
about this paper
Author: Ruidan He, Wee Sun Lee, Hwee Tou Ng, Daniel Dahlmeier Link: https://www.comp.nus.edu.sg/~leews/publications/acl17.pdf
アテンションメカニズムを用いた初めての教師なしaspect抽出モデル。
ベースラインモデルは:
what are problems they want to solve?
problems
今までのaspect抽出の研究は下記の三つのアプローチでやってきた。それぞれの問題点としては:
規則ベース:定義された規則に基づいて単語抽出。よく出てくる名詞や名詞句を中心に探し、中でもWordNetを用いて同意語や反意語を持って判断。 → aspect用語をカテゴリ化して抽出しない。あらかじめ決めた記憶に依存しすぎて、aspect単語が名詞にだけ制限されてしまう。
教師あり学習:あらかじめラベリングされたデータを用いてaspect単語抽出。 → 大量のアノテーションデータやドメインに依存しすぎ。
教師なし学習:トピックモデルのように、ラベリングされたデータなしでaspect単語抽出。モデルのアウトプットは、一般的に、単語の分布。 → RBMモデル(2015年に提案されたモデル:aspectの抽出とともに、与えられたレビュー文に関連した感情も抽出。aspectも感情もRBMの分離された隠れ変数として扱う)の場合、品詞タグや感情を表す辞典的知識などの前提知識に依存しすぎ。
how to solve
あらゆる情報を与える手法より、アテンションメカニズムの方がより適切な情報を抽出してくれる。 よって、教師なしニューラルモデルにアテンションをかける手法を提案する。
model architecture
モデルの名前はABAE。 エンベディング空間で、最も近い単語(代表単語)を観察することで、各aspectがわかるaspectのエンベディングセットを学習することが目標。
下の二段階はattentionのため、上の二段階はreconstruction(線型結合)のため。流れは以下の様。 インプット:レビュー文中の単語インデクスのリスト
experiment
dataset
Citysearch corpus:レストランのレビュー BeerAdvocate:ビールのレビュー
setting
result
抽出されたaspect単語
ベースラインモデルとの比較(レストラン)
ベースラインとの比較(ビール)
アテンション適用したモデル(ABAE)とアテンション適用していないモデル(ABAE-)の比較
→ アテンションの力がわかる
conclusion
LDAと比べて優れた性能を見せた。 ABAEは単純にクオリティの高いaspectを抽出しただけでなく、従来の手法より効率よく抽出できるということが証明できた。
what’s next
Coupled Multi-Layer Attentions for Co-Extraction of Aspect and Opinion Terms http://www.aaai.org/Conferences/AAAI/2017/PreliminaryPapers/15-Wang-W-14441.pdf
code
https://github.com/ruidan/Unsupervised-Aspect-Extraction