AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
15 stars 0 forks source link

QuestEval: Summarization Asks for Fact-based Evaluation, Thomas Scialom+, N/A, EMNLP'21 #974

Open AkihikoWatanabe opened 11 months ago

AkihikoWatanabe commented 11 months ago

URL

AkihikoWatanabe commented 11 months ago

QuestEval

AkihikoWatanabe commented 11 months ago

概要

984 によって提案されてきたメトリックがROUGEに勝てていないことについて言及し、より良い指標を提案。

Question-based framework

prerainedなT5を利用しQAに回答するcomponent(question, Textがgivenな時answerを生成するモデル)を構築する。text Tに対するquery qに対してrと回答する確率をQ_A(r|T, q)とし、Q_A(T, q)をモデルによってgreedyに生成された回答とする。Questionが与えられた時、Summary内に回答が含まれているかは分からない。そのため、unanswerable token εもQA componentに含める。 QG componentとしては、answer-source documentが与えられたときに人間が生成したquestionを生成できるようfinetuningされたT5モデルを利用する。テスト時は、ソースドキュメントと、システム要約がgivenなときに、はじめにQG modelを条件付けするためのanswerのsetを選択する。#1007 にならい、ソースドキュメントの全ての固有名詞と名詞をanswerとみなす。そして、それぞれの選択されたanswerごとに、beam searchを用いてquestionを生成する。そして、QAモデルが誤った回答をした場合、そのようなquestionはフィルタリングする。text Tにおいて、Q_A(T, q) = rとなるquestion-answer pairs (q, r)の集合を、Q_G(T)と表記する。

QuestEval metric

Precision

source documentをD, システム要約をSとしたときに、Precision, Recallを以下の式で測る: image question生成時は要約から生成し、生成されたquestionに回答する際はsource documentを利用し、回答の正誤に対してF1スコアを測定する。F1スコアは、ground truthと予測された回答を比較することによって測定され、回答がexact matchした場合に1, common tokenが存在しない場合に0を返す。D, Sで条件付けされたときに、回答が変わってしまう場合は要約がinconsistentだとみなせる、というintuitionからきている。

Recall

要約はfactual informationを含むべきのみならず(precision)、ソーステキストの重要な情報を含むべきである(recall)。#943をquery weighter Wを導入することで拡張し、recallを下記で定義する: image ここで、Q_G(D)は、ソーステキストDにおけるすべてのQA pairの集合、W(q, D)はDに対するqの重みである。

Answerability and F1

Factoid QAモデルは一般的に、predicted answerとground truthのoverlapによって(F1)評価されている。しかし"ACL"と"Association for Computational Linguistics"のように、同じ回答でも異なる方法で表現される可能性がある。この例では、F1スコアは0となる(共通のtokenがないため)。 これを回避するために、#943 と同様に1-Q_A(ε)を利用する。 image

AkihikoWatanabe commented 8 months ago

QG component, QA componentで利用するT5は、それぞれSQuAD-v2と、NewsQAデータセット #1142 によってfinetuningしたものを利用する。