fujiso / papers

NLP/Deep Learning関連の論文まとめ
4 stars 0 forks source link

Table-to-text Generation by Structure-aware Seq2seq Learning #16

Open ss1357 opened 5 years ago

ss1357 commented 5 years ago

概要

WIKIPEDIAのような固定フォーマットの表からその表全体の記述を行うモデルの提案を行なっている. そのモデルは表の内容と表のフィールドの情報の両方をそれぞれ入力とするエンコーダ,普通のアテンションと表の構造に関するアテンションを組み合わせたデコーダなどによって構成されている. WIKIBIOデータセットで精度の向上が見られた

著者

Tianyu Liu, Kexiang Wang, Lei Sha, Baobao Chang and Zhifang Sui

リンク

https://arxiv.org/pdf/1711.09724.pdf AAAI コード:https://github.com/tyliupku/wiki2bio

貢献

1:フィールドの情報を表の構造情報にエンコードする機構を加えたend2endのエンコーダ・デコーダアーキテクチャを提案 2:表のセルの情報と表の構造情報を上手に組み合わせるデュアル注意機構の提案 3:WIKIBIOデータセットでの精度向上

手法

・フィールド情報の表現 Lebret, Grangier, and Auli (2016)は先頭からの位置しか入れてなかったが,今回は末尾からの位置も埋め込んだ ・モデル *エンコーダはvanilla LSTM unitを用いて,cellの内容とフィールド情報のエンコード結果を入力として状態を計算していく(その際にどれだけフィールド情報を入れるかといったゲートを加える) *cellの内容でVanilla attention取ったαと,フィールド情報でVanilla attention取ったβを以下の式で組み合わせて,dual attentionとする *unknownはdual attentionの一番かかっているものに置き換え *dual attentionによって記述生成の時にテーブルのどこに注目したら良いかというLocal and Global Addressingを実現できている

実験

・データセット:WIKIBIO ・評価:BLEU-4とROUGE-4(NIST mteval-v13a.pl) *local Addressing(cellのアテンション)でアテンションがうまくかかってないところはGlobal Addressing(フィールド情報のアテンション)で補われているのが下図でわかる 生成例

Future work

特になし

ss1357 commented 5 years ago

WIKIBIOは表のヘッダー(左側)のセルの内容が同じものが多いから,フィールドエンコーディングでうまく学習できていると考えられる おそらく,ヘッダーに入っている単語の異なり数が多い場合はうまくいかない気がする