Evaluating machine-generated summaries without a human-written reference summary has been a need for a long time. Inspired by preference labeling in existing work of summarization evaluation, we propose to judge summary quality by learning the preference rank of summaries using the Bradley-Terry power ranking model from inferior summaries generated by corrupting base summaries. Extensive experiments on several datasets show that our weakly supervised scheme can produce scores highly correlated with human ratings.

Translation (by gpt-3.5-turbo)

人間による参照要約のない機械生成の要約の評価は長い間求められてきました。要約評価の既存の研究での好みのラベリングに着想を得て、私たちはベース要約を破損させて生成された劣った要約からブラッドリー・テリーのパワーランキングモデルを用いて要約の優劣を判断することを提案します。複数のデータセットでの徹底的な実験結果は、私たちの弱教師付きスキームが人間の評価と高い相関を持つスコアを生成できることを示しています。
Summary (by gpt-3.5-turbo)
人間による参照要約のない機械生成の要約の評価を行うために、ブラッドリー・テリーのパワーランキングモデルを使用して要約の優劣を判断する方法を提案する。実験結果は、この方法が人間の評価と高い相関を持つスコアを生成できることを示している。

AkihikoWatanabe / paper_notes

PrefScore: Pairwise Preference Learning for Reference-free Summarization Quality Assessment, Luo+, COLING'22 #941

Translation (by gpt-3.5-turbo)

Summary (by gpt-3.5-turbo)