AkihikoWatanabe commented 11 months ago

URL

https://arxiv.org/abs/2103.12693
Affiliations
- Thomas Scialom, N/A
- Paul-Alexis Dray, N/A
- Patrick Gallinari, N/A
- Sylvain Lamprier, N/A
- Benjamin Piwowarski, N/A
- Jacopo Staiano, N/A
- Alex Wang, N/A
  Abstract
- Summarization evaluation remains an open research problem: current metricssuch as ROUGE are known to be limited and to correlate poorly with humanjudgments. To alleviate this issue, recent work has proposed evaluation metricswhich rely on question answering models to assess whether a summary containsall the relevant information in its source document. Though promising, theproposed approaches have so far failed to correlate better than ROUGE withhuman judgments. In this paper, we extend previous approaches and propose a unified framework,named QuestEval. In contrast to established metrics such as ROUGE or BERTScore,QuestEval does not require any ground-truth reference. Nonetheless, QuestEvalsubstantially improves the correlation with human judgments over fourevaluation dimensions (consistency, coherence, fluency, and relevance), asshown in the extensive experiments we report.
  Translation (by gpt-3.5-turbo)
要約の評価は未解決の研究課題であり、ROUGEなどの現在の評価指標は限定的であり、人間の判断との相関が低いことが知られています。この問題を軽減するため、最近の研究では、要約が元の文書に含まれるすべての関連情報を含んでいるかどうかを評価するために、質問応答モデルを利用する評価指標が提案されています。しかし、これまでのアプローチは、ROUGEよりも人間の判断との相関が改善されていない。本論文では、これまでのアプローチを拡張し、QuestEvalという統一されたフレームワークを提案します。ROUGEやBERTScoreなどの既存の評価指標とは異なり、QuestEvalは正解の参照を必要としません。それにもかかわらず、私たちが報告する広範な実験により、QuestEvalは一貫性、結束性、流暢さ、関連性という4つの評価次元において、人間の判断との相関を大幅に改善することが示されています。
Summary (by gpt-3.5-turbo)
要約の評価は未解決の課題であり、既存の評価指標は限定的であり、人間の判断との相関が低い。そこで、本研究では質問応答モデルを利用した評価指標QuestEvalを提案する。QuestEvalは正解の参照を必要とせず、一貫性、結束性、流暢さ、関連性の4つの評価次元において人間の判断との相関を大幅に改善することが実験により示された。

AkihikoWatanabe commented 11 months ago

QuestEval

AkihikoWatanabe commented 11 months ago

概要

984 によって提案されてきたメトリックがROUGEに勝てていないことについて言及し、より良い指標を提案。

precision / recall-based な QA metricsを利用してよりロバスト
生成されるqueryのsaliencyを学習する手法を提案することで、information selectionの概念を導入した
CNN/Daily Mail, XSUMで評価した結果、SoTAな結果を獲得し、特にFactual Consistencyの評価に有用なことを示した

Question-based framework

prerainedなT5を利用しQAに回答するcomponent（question, Textがgivenな時answerを生成するモデル）を構築する。text Tに対するquery qに対してrと回答する確率をQ_A(r|T, q)とし、Q_A(T, q)をモデルによってgreedyに生成された回答とする。Questionが与えられた時、Summary内に回答が含まれているかは分からない。そのため、unanswerable token εもQA componentに含める。 QG componentとしては、answer-source documentが与えられたときに人間が生成したquestionを生成できるようfinetuningされたT5モデルを利用する。テスト時は、ソースドキュメントと、システム要約がgivenなときに、はじめにQG modelを条件付けするためのanswerのsetを選択する。#1007 にならい、ソースドキュメントの全ての固有名詞と名詞をanswerとみなす。そして、それぞれの選択されたanswerごとに、beam searchを用いてquestionを生成する。そして、QAモデルが誤った回答をした場合、そのようなquestionはフィルタリングする。text Tにおいて、Q_A(T, q) = rとなるquestion-answer pairs (q, r)の集合を、Q_G(T)と表記する。

QuestEval metric

Precision

source documentをD, システム要約をSとしたときに、Precision, Recallを以下の式で測る： question生成時は要約から生成し、生成されたquestionに回答する際はsource documentを利用し、回答の正誤に対してF1スコアを測定する。F1スコアは、ground truthと予測された回答を比較することによって測定され、回答がexact matchした場合に1, common tokenが存在しない場合に0を返す。D, Sで条件付けされたときに、回答が変わってしまう場合は要約がinconsistentだとみなせる、というintuitionからきている。

Recall

要約はfactual informationを含むべきのみならず(precision)、ソーステキストの重要な情報を含むべきである(recall)。#943をquery weighter Wを導入することで拡張し、recallを下記で定義する：ここで、Q_G(D)は、ソーステキストDにおけるすべてのQA pairの集合、W(q, D)はDに対するqの重みである。

Answerability and F1

Factoid QAモデルは一般的に、predicted answerとground truthのoverlapによって（F1）評価されている。しかし"ACL"と"Association for Computational Linguistics"のように、同じ回答でも異なる方法で表現される可能性がある。この例では、F1スコアは0となる（共通のtokenがないため）。これを回避するために、#943 と同様に1-Q_A(ε)を利用する。

AkihikoWatanabe commented 8 months ago

QG component, QA componentで利用するT5は、それぞれSQuAD-v2と、NewsQAデータセット #1142 によってfinetuningしたものを利用する。

AkihikoWatanabe / paper_notes

QuestEval: Summarization Asks for Fact-based Evaluation, Thomas Scialom+, N/A, EMNLP'21 #974

URL

Affiliations

Abstract

Translation (by gpt-3.5-turbo)

Summary (by gpt-3.5-turbo)

概要

984 によって提案されてきたメトリックがROUGEに勝てていないことについて言及し、より良い指標を提案。

Question-based framework

QuestEval metric

Precision

Recall

Answerability and F1