Open fujiso opened 6 years ago
出力例:
・嘘情報が入っているかどうかの判断をどうやっているのかが謎(元の文に含まれていない単語がある=嘘?) ・OpenIEを使ったfactの抽出ってtestの時もやっているの?
返信遅れてすみません
・嘘情報が入っているかどうかの判断をどうやっているのかが謎(元の文に含まれていない単語がある=嘘?)
人手で判断してます.
・OpenIEを使ったfactの抽出ってtestの時もやっているの?
モデルの入力になってるので,やります.
ありがとうございます.
概要
ファクト抽出(OpenIEや構文解析)を用いて,元テキストへの忠実性を考慮する生成型の要約モデルを提案.元テキストからファクトを抽出して要約生成に活用することで,ニューラル生成要約モデルにありがちな嘘情報を含んでしまう問題点の解消に取り組んでいる. 提案法で嘘情報を含む要約の出現率を27%から6%に削減.
著者
Ziqiang Cao, Furu Wei, Wenjie Li, Sujian Li The Hong Kong Polytechnic University, Microsoft Research
リンク
https://arxiv.org/abs/1711.04434
貢献
手法
前処理
OpenIEにより(主語,述語,目的語)の3つ組をfactとして抽出. OpenIEでfactを抽出できない文(コーパスの15%ほど)は,構文解析にかけて抽出.
モデル
文のencoderとfactのencoderの二つのbi-GRUを用意. factのencoderには前処理で抽出したfactを"fact1 ||| fact2"のように|||で連結して一つのseqenceにして入力. 両方のencoderについてattentionを計算して,MLPで合わせてcontext vectorにしている.
実験
データ
Annotated English Giga word corpus (ref: Table4)
結果
Table6をみると,Rougeがかなり上がっていることがわかる. また,Table7をみるとseq2seq+attentionで嘘情報が入っている出力が27/100件なのに対し, 提案手法では6/100件とかなり減っている.
Future work