Why We Need New Evaluation Metrics for NLG, Novikova+, EMNLP'17

AkihikoWatanabe commented 6 years ago

AkihikoWatanabe commented 6 years ago

AkihikoWatanabe commented 6 years ago

言語生成の評価指標が信用ならないので、3種類の生成器、3種類のデータを用意し、多数の自動評価尺度を利用した評価結果と人手評価の結果を比較した結果、相関がなかった。

既存の自動評価は人手評価と弱い相関しかなく、その有効性はデータとドメインに依存。システム間の比較およびシステムの性能が低い場合においては有効。

利用した自動評価指標人手評価指標（解説スライドより）

AkihikoWatanabe / paper_notes