cfiken / paper-reading

34 stars 3 forks source link

[2020] BERTScore: Evaluating Text Generation with BERT #46

Open cfiken opened 4 years ago

cfiken commented 4 years ago

0. 論文

タイトル

BERTScore: Evaluating Text Generation with BERT

リンク

https://arxiv.org/abs/1904.09675 https://github.com/Tiiiger/bert_score

著者

Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi

投稿日付

ICLR2020, arxiv on 21 Apr 2019

1. どんなもの?

テキスト生成という評価の難しいドメインにおいて、自動評価指標である BERTScore を提案。reference 文と candidate (予測) 文の BERT の contextual embeddings を用いて類似度を計算する。 機械翻訳と image captioning のタスクで実験し、既存の自動評価指標や learnable な評価指標と比較、安定して良いスコアを獲得。ロバスト性検証のため PAWS でも実験を行い、既存手法と比べてかなり高いロバスト性を示した。

2. 先行研究と比べてどこがすごい?

BERT の contextual embedding を用いることで、単純な単語のマッチングや単語の意味の類似度ではなく、文全体での意味的な類似度を提供できる。 一方で追加学習の必要がなく、BERT など pre-trained model が既に多数の言語で提供されているため多くの言語・ドメインで簡単に使うことができる。

3. 技術や手法のキモはどこ?

BERTScore はシンプルに算出でき、次の図がわかりやすい。

スクリーンショット 2020-04-30 01 11 08

これにより得られるスコアを計算の仕方で Precision, Recall, F1, 及び idf による重み付けの有無でそれぞれ実験し、タスク差はあるもののどれも同じくらいの結果を得ている。

4. どうやって有効だと検証した?

機械翻訳、image captioning, ロバスト性の検証、の3つについて広範囲に実験。

5. 議論はある?

6. 次に読むべき論文は?

cfiken commented 4 years ago

他の実験

Model Selection

WMT18 のデータにおいて、複数の system (≒ model) からある reference に対する candidate 文を sampling することで得る hybrid system の考え方を使って擬似的に system 数を増やして実験を行っており(その際の人間評価値は、各 system の候補文の評価値の平均)、10K個の hybrid system からランダムに 100 個を選び、各評価指標を使ってランキングし、人間評価値によるランキングと比較。これを 100K 回行って model selection の精度を見た。

スクリーンショット 2020-04-30 01 41 58

結果、RUSE は WMT18 のデータを使って学習している指標なので精度がよく(なので english しかない)、それを除くと特に英語では安定して BERTScore が上位に来ている。

その他

Appendix に大量の実験結果が表で貼り付けられている。 論文中に出てくるものは一部だけで、他の pre-trained model (Roberta, XLNet, XLM) などを使ったものも全て検証されており、結論としては機械翻訳では F1 を使うのが安定しており、特に英語への翻訳では RoBERTa-large ベースのものが良く、他言語ではリソースがある程度あるものなら BERT_multi が良かったとのこと。

cfiken commented 4 years ago

コメント

何より簡単に使えるのが良い。既存手法より信頼性は高そうだが、Inception Score しかり、元モデルでできないことはまだまだあるので発展途上。仕組み自体は適用しやすいので、より良い pre-train モデルがでたらそっちで使い回せる。 対話には使えなくはないが、あくまで文の意味の類似度が指標になるので reference とは違った意味の返し(対話では正解になりうる)は評価できなさそう