Open AkihikoWatanabe opened 3 years ago
BLEUスコア、NISTスコア、WordErrorRate(WER)などに関して丁寧かつ簡潔に解説してある。 BLEUスコア算出に利用するN-gramは一般的にはN=4が用いられる、といった痒いところに手が届く情報も書いてある。 普段何気なく使っているBLEUスコアで、あれ定義ってどんなだっけ?と立ち帰りたくなった時に読むべし。
実際に研究等でBLEUスコアを測りたい場合は、mosesの実装を使うのが間違いない: https://github.com/moses-smt/mosesdecoder/blob/master/scripts/generic/multi-bleu.perl
https://www.anlp.jp/proceedings/annual_meeting/2004/pdf_dir/P4-8.pdf