[2021] Learning Syntactic Dense Embedding with Correlation Graph for Automatic Readability Assessment

0. 論文

タイトル	Learning Syntactic Dense Embedding with Correlation Graph for Automatic Readability Assessment
リンク	https://arxiv.org/abs/2107.04268
著者	Xinying Qiu, Yuan Chen, Hanwu Chen, Jian-Yun Nie, Yuming Shen, Dawei Lu
投稿日付	ACL2021

1. どんなもの？

スクリーンショット 2021-08-09 19 11 10

automatic readability assessment (ARA) のタスクでは、明示的に作成する言語的特徴は Deep Learning による手法では一般的に用いない。本研究では、言語的特徴を構文の密な embedding で表現し、更にその特徴同士の関連を相関グラフを用いて表現を学習、似た特徴が似た embedding となるようにした上で BERT などの言語モデルの出力と concat し、推論を行う。実験にて、BERTのみのモデルよりも精度の改善を確認。

2. 先行研究と比べてどこがすごい？

言語的特徴をそのまま使うのではなく、embedding して相関からグラフを作成、更に表現を洗練することで精度改善。

3. 技術や手法のキモはどこ？

構文 embedding の作成
- 各文書 i に対して、各言語的特徴量 d_i を計算、文書数 N_D x 特徴数 N_F の matrix D を作成する
- それぞれの特徴(1次元)に対し、Gaussian-binning を用いてもとの値からの距離を表す k 次元のベクトルへ変換、それをデータ（文書）数分つなげて各特徴ごとに M = k x N_D のベクトルを作成
- N_F個の特徴のそれぞれの組み合わせについて、相関係数 > 0.7 のものを positive なペアとして、グラフを構成
- TransE or Retrofitting を用いて L ∈ M x N_F の空間から同じような特徴は値が近くなるような写像を学習
- 最終的な表現 \tilda{d}_i = L_O d_i を得る
文書を BERT, mean pooling を通して言語モデル特徴を得る
- finetuning を行った際は（おそらくデータが少ないことから）汎化せず、オリジナルそのままを用いた
BERT の出力と作成した構文埋め込みを concat し、DNN を通して最終的な出力を得る

4. どうやって有効だと検証した？

複数モデルと比較し、英語や中国語のベンチマークにおいて精度を改善。

スクリーンショット 2021-08-09 19 59 43

cfiken / paper-reading

[2021] Learning Syntactic Dense Embedding with Correlation Graph for Automatic Readability Assessment #138

0. 論文

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？