about this paper

Author: Ruidan He, Wee Sun Lee, Hwee Tou Ng, Daniel Dahlmeier Link: https://www.comp.nus.edu.sg/~leews/publications/acl17.pdf

アテンションメカニズムを用いた初めての教師なしaspect抽出モデル。

ベースラインモデルは：

LocLDA：グローバルトピックの推定ではなくモデルの評価できるaspectを推定できるよう、各センテンスは一つのドキュメント扱いをするLDAモデル。
k-means：提案モデルとの比較のために、aspect行列Tを、ワードエンベディングのk-meansの中心値で初期化。
SAS：aspectとaspect特有のオピニオンを同時に抽出するモデル。トピックモデルと比べていいほど。
BTM：コーパスの順序は考えず、同時発生単語のペアを生成することで、短い文の単語希薄問題が解決できるモデル。従来のLDAより性能がいい。（BTM：2013年に提案されたbiterm topic modelのこと。単語間同時発生パターンをモデリングすることによりトピックを学習する、トピックモデルに基づいたモデル）

what are problems they want to solve?

今までのaspect抽出の研究は下記の三つのアプローチでやってきた。それぞれの問題点としては：

規則ベース：定義された規則に基づいて単語抽出。よく出てくる名詞や名詞句を中心に探し、中でもWordNetを用いて同意語や反意語を持って判断。 → aspect用語をカテゴリ化して抽出しない。あらかじめ決めた記憶に依存しすぎて、aspect単語が名詞にだけ制限されてしまう。
教師あり学習：あらかじめラベリングされたデータを用いてaspect単語抽出。 → 大量のアノテーションデータやドメインに依存しすぎ。
教師なし学習：トピックモデルのように、ラベリングされたデータなしでaspect単語抽出。モデルのアウトプットは、一般的に、単語の分布。 → RBMモデル（2015年に提案されたモデル：aspectの抽出とともに、与えられたレビュー文に関連した感情も抽出。aspectも感情もRBMの分離された隠れ変数として扱う）の場合、品詞タグや感情を表す辞典的知識などの前提知識に依存しすぎ。

あらゆる情報を与える手法より、アテンションメカニズムの方がより適切な情報を抽出してくれる。よって、教師なしニューラルモデルにアテンションをかける手法を提案する。

モデルの名前はABAE。エンベディング空間で、最も近い単語（代表単語）を観察することで、各aspectがわかるaspectのエンベディングセットを学習することが目標。

下の二段階はattentionのため、上の二段階はreconstruction（線型結合）のため。流れは以下の様。インプット：レビュー文中の単語インデクスのリスト

アテンションメカニズムでaspectではない単語をフィルタリング：次元縮小、aspect単語がわかる。 → 重み付きワードエンベディングから得られた情報を基に、センテンスエンベディングのZ_sを生成。
T（aspectエンベディング行列）のaspectエンベディングの線型結合として、センテンスエンベディング（Z_s）を、r_sにreconstruction。 → 負でない、正規化された重みが得られる。 => エンベディングされたk個のaspect単語の情報の歪みを最小限にすることができる。
- アテンションメカニズム ① 文章が与えられた時、単語表現の平均を求めることで文章の表現を構築。 ② 単語の重みを以下の二つの基準に沿って設定
  
  1)k-aspectに近い単語がわかる変換行列Mを用いて、単語をフィルタリング 2)グロバル文脈y_sとフィルタリングされた単語の内積を求めることで、フィルタリングされた単語と文章の関係性がわかる

アテンションメカニズムでセンテンスエンベディング 各インプット文Sの表現Z_sを生成。これで、Z_sが文内でaspect=topicだと思える最もいい（関連している）情報を掴んでくれるはず。

ai : 正の重み e{w_i} : ワードエンベディング w_i：i番目の単語
目的関数：max-margin目的関数（Socher et al., 2014参照）この目的関数を使う理由は、再構築されたr_sを、ネガテイブサンプル（n_i）とは異なるターゲット文のエンベディングz_sに近づけさせるため。正規化されてない目的関数J(θ)をhinge-lossの様に公式を立てる：r_sとz_sの内積を最大化・ネガティブサンブルとr_sの内積を最小化。 aspectエンベディングの結果に、なるべく中腹がない様にするため、J(θ)に規則単語を追加。こう行ったプロセスを経ての目的関数の決定版は：L(θ) = J(θ) + λU(θ)

λは、規則単語の重みを調節するハイパーパラメータ。

Citysearch corpus：レストランのレビュー BeerAdvocate：ビールのレビュー

消去対象：10回以下の頻度を見せる単語・記号・ストップワード
ハイパーパラメータでチューニング：トピックの一貫性測定（スコア測定の公式は以下の様）したグリッドサーチ（興味のあるすべてのパラメータを対象に、できる限りのすべての組み合わせを試してみる手法）とhold-outを利用。
1,000回繰り返し。
LocLDA：GibbsLDA++実行 Dirichlet事前確率 : α = 0.05、β = 0.1
BTM：Yan et al., 2013実行 Dirichlet事前確率 : α = 50/K、β = 0.1
初期化 ① ネガティブサンプルを用いてword2vecで訓練させた単語ベクトルを用いて、ワードエンベディング行列Eを初期化。 ② ワードエンベディングからk-meansかけたクラスターの中心値を用いて、aspectエンベディング行列Tを初期化。 ③ これら以外のものの初期値は、ランダムに決定。
訓練学習率：0.001 epochs : 15 バッチサイズ：50 ペナルティ重み：1 インプットするネガティブサンプル数：m ~ 20 すべてのモデルの実行は平均10回以上
評価３人の人が抽出されたaspect単語を評価