OnizukaLab / ConferenceProceedings

NLP 班論文読み会用のリポジトリ
8 stars 1 forks source link

BLEU is Not Suitable for the Evaluation of Text Simplification #49

Open bmiura opened 5 years ago

bmiura commented 5 years ago

一言でいうと

テキスト平易化の評価にBLEUを使うのは適当ではない

論文リンク

http://aclweb.org/anthology/D18-1081

著者/所属機関

Elior Sulem, Omri Abend, Ari Rappoport Department of Computer Science, The Hebrew University of Jerusalem

投稿日付(yyyy/MM/dd)

概要

BLEUは平易性や構造平易性において人手評価と相関がない 特に文分割を含む場合、文法性や意味保存性においても相関がない 文分割を考慮したリファレンスで測ればいいとかそういう話でもない

新規性・差分

手法

4つの項目 (文法性 (G)・意味保存性 (M)・平易性 (S)・構造平易性 (StS))において、以下の自動評価指標によるスコアと人手評価によるスコアの相関 (スピアマンの順位相関係数)を見る

出力を比較するシステムは Nisioi et al. (2017)のTSシステム(SOTA)の4バリエーション、Moses、SBMT-SARI 特に文分割を主に行うもの:DSS、DSSm、SEMoses、SEMosesm、SEMosesLM、SEMosesmLM

結果

標準のテストセットのリファレンスを使ったときのシステムレベルの相関

2018-12-18 03 44 02

Hsplitをリファレンスとしたときの文レベルの相関

2018-12-18 03 17 56