BLEU is Not Suitable for the Evaluation of Text Simplification

一言でいうと

テキスト平易化の評価にBLEUを使うのは適当ではない

Elior Sulem, Omri Abend, Ari Rappoport Department of Computer Science, The Hebrew University of Jerusalem

BLEUは平易性や構造平易性において人手評価と相関がない特に文分割を含む場合、文法性や意味保存性においても相関がない文分割を考慮したリファレンスで測ればいいとかそういう話でもない

4つの項目 (文法性 (G)・意味保存性 (M)・平易性 (S)・構造平易性 (StS))において、以下の自動評価指標によるスコアと人手評価によるスコアの相関 (スピアマンの順位相関係数)を見る

出力を比較するシステムは Nisioi et al. (2017)のTSシステム(SOTA)の4バリエーション、Moses、SBMT-SARI 特に文分割を主に行うもの：DSS、DSS^m、SEMoses、SEMoses^m、SEMoses_LM、SEMoses^m_LM

標準のテストセットのリファレンスを使ったときのシステムレベルの相関

Hsplitをリファレンスとしたときの文レベルの相関