Open bmiura opened 5 years ago
テキスト平易化の評価にBLEUを使うのは適当ではない
http://aclweb.org/anthology/D18-1081
Elior Sulem, Omri Abend, Ari Rappoport Department of Computer Science, The Hebrew University of Jerusalem
BLEUは平易性や構造平易性において人手評価と相関がない 特に文分割を含む場合、文法性や意味保存性においても相関がない 文分割を考慮したリファレンスで測ればいいとかそういう話でもない
4つの項目 (文法性 (G)・意味保存性 (M)・平易性 (S)・構造平易性 (StS))において、以下の自動評価指標によるスコアと人手評価によるスコアの相関 (スピアマンの順位相関係数)を見る
出力を比較するシステムは Nisioi et al. (2017)のTSシステム(SOTA)の4バリエーション、Moses、SBMT-SARI 特に文分割を主に行うもの:DSS、DSSm、SEMoses、SEMosesm、SEMosesLM、SEMosesmLM
標準のテストセットのリファレンスを使ったときのシステムレベルの相関
Hsplitをリファレンスとしたときの文レベルの相関
一言でいうと
テキスト平易化の評価にBLEUを使うのは適当ではない
論文リンク
http://aclweb.org/anthology/D18-1081
著者/所属機関
Elior Sulem, Omri Abend, Ari Rappoport Department of Computer Science, The Hebrew University of Jerusalem
投稿日付(yyyy/MM/dd)
概要
BLEUは平易性や構造平易性において人手評価と相関がない 特に文分割を含む場合、文法性や意味保存性においても相関がない 文分割を考慮したリファレンスで測ればいいとかそういう話でもない
新規性・差分
手法
4つの項目 (文法性 (G)・意味保存性 (M)・平易性 (S)・構造平易性 (StS))において、以下の自動評価指標によるスコアと人手評価によるスコアの相関 (スピアマンの順位相関係数)を見る
出力を比較するシステムは Nisioi et al. (2017)のTSシステム(SOTA)の4バリエーション、Moses、SBMT-SARI 特に文分割を主に行うもの:DSS、DSSm、SEMoses、SEMosesm、SEMosesLM、SEMosesmLM
結果
標準のテストセットのリファレンスを使ったときのシステムレベルの相関
Hsplitをリファレンスとしたときの文レベルの相関