AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
21 stars 0 forks source link

Re-evaluating Automatic Summarization with BLEU and 192 Shades of ROUGE, Graham, EMNLP'15 #145

Open AkihikoWatanabe opened 6 years ago

AkihikoWatanabe commented 6 years ago

http://aclweb.org/anthology/D/D15/D15-1013.pdf

AkihikoWatanabe commented 6 years ago

文書要約で使用されているMetric、特にBLEUやROUGEの結果(可能な192のパターン)と、人手の結果との相関を再分析している。 その結果、BLEUがもっとも人手評価との相関が高く、ROUGE-2のPrecisionの平均(ステミング、stop words除去)がROUGEの中でbest-performingなvariantだった。

要約のMetrcの最適な検定方法として、Williams検定を利用。 再評価の結果、以前推奨されていたvariantとは異なるMetricsが良い結果に。 best-performing ROUGE resultを用いて、既存のstate-of-the-artなシステムを再度ランキングづけすると、originalのものとは結構異なる結果になった。

(一部のスコアが良かったシステムのスコアが相対的にかなり悪化している) image

また、BLEUが人手評価ともっとも高い相関を示したが、best-performingなROUGE variantとは統計的な有意差はなかった。