2020: XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization

XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization Junjie Hu, Sebastian Ruder, Aditya Siddhant, Graham Neubig, Orhan Firat, Melvin Johnson https://arxiv.org/abs/2003.11080 Google AI Blog: https://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html Jeff Dean氏のツイート: https://twitter.com/JeffDean/status/1249941468300500998 detaset: https://research.google/xtreme/ // not found...

概要

40言語9タスクのベンチマークセット，Cross-lingual TRansfer Evaluation of Multilingual Encoders (XTREME)の公開．英語ではすでに人レベルに達しているモデルでも，特に構文や文抽出タスクでクロス言語転移のパフォーマンスギャップが大きいことを実験で示す．

イントロ

世界へNLPのを提供するには約6900もの言語に対応する必要がある．ただしこれはデータセットが限られている点において難しい．ただし幸運にも多くの言語は構文や語彙において類似性があり，多言語学習も多く研究されている．そして，ここ数年は，多様なアプリケーションに対する"汎用的な多言語表現の実現"がトレンドとして存在する．ただしその実行に向けてはやはり評価データが不足している．

そこで40言語，12言語ファミリー，9タスクのXTREMEを提案．加えて，NLIとQAの英語のテストセットを残る40言語に機械翻訳することによる疑似の診断テストデータも提供する．

XTREMEでは，ゼロショットのクロス言語転移のシナリオにフォーカスする．つまりアノテーションされたデータは英語だけであり，他言語への転移を検討するというものである．これは現実の設定に即したものである．我々はSOTAな翻訳や多言語表現モデルを試し，英語では人に達しているモデルにおいても，他言語では，特に構文や文抽出タスクで大きなドロップを確認．またインドーヨロッパファミリーでは良いパフォーマンスを確認したものの，中国チベット系，日本語，韓国語，ニジェール・コンゴ系では低パフォーマンスを確認

本論文の貢献ポイント

多言語多タスクデータセットの公開
オンラインの評価リーダーボードを提供
強いベースラインの提供
SOTAモデルのクロス言語性に関する広範囲な分析

XTREME

設計思想

タスク難易度：人パフォーマンスとはまだギャップが有るようなチャレンジングなタスク
タスク多様性：表現は，単語，フレーズ，文といった異なるレベルを必要とするものが必要
学習効率：１GPU１日以内で学習できるもの（実社会で幅広く実現されるための制約）
十分な単言語データ：事前学習には十分な転移元学習データの用意
アクセス性：各タスクがリサーチ目的で利用可能なこと

選定タスク

XNLI: 多言語NLIのデータセット．MultiNLIを学習データに，10言語に評価データは翻訳されている
PAWS-X: Cross-lingual Paraphrase Adversaries from Word Scrambling. パラフレーズが意味があっているかどうかを判定するタスク．6言語に翻訳されている
POS: Universal Dependencies v2.5のPOSタギング学習データを利用．90言語カバー．英語を学習データ，他言語を評価データへ．
NER: Wikiann( Pan, 2017)を利用．
XQuAD: クロス原語版SQuAD．SQuAD 1.1に対応．評価データは10言語に翻訳されている．
MLQA: 多言語QA．XQuADと似ている．6言語の評価データ．
TyDiQA-GoldP: Typologically Diverse Question Answering (Clark, 2020)の解答可能なものに限定したものを利用．9言語カバー．XQuADやMLQAと似ている一方，答えを見ずに質問が書かれているのでよりチャレンジング．
BUCC: Building and Using Parallel Corporaのshared task．比較可能なコーパスからパラレル文を抽出するタスク．英語と４言語
Tatoeba: 1000の英語とのパラレルコーパス．122言語カバー

選定言語

まずWIkipediaの記事数が多いトップ100の言語から，我々のベンチマークセットで3回以上登場しているもの（19言語）と追加で1回以上登場している言語（21言語）を選択．合計40言語．

af, ar, bg, bn, de, el, en, es, et, eu, fa, fi, fr, he, hi, hu, id, it, ja, jv, ka, kk, ko, ml, mr, ms, my, nl, pt, ru, sw, ta, te, th, tl, tr, ur, vi, yo, zh

分析のための疑似テストデータ

XTREMEは40言語をカバーしているといったが，POS, NER, Tatoebaでのみ有効．そのため，表現分類及びQAの英語データをin-houseの翻訳システムを使って他言語へ翻訳した．XNLIとXQuADは，プロの翻訳家による英語の翻訳テストデータがあるため選択．// ? まず最初に翻訳したテストセット（英語以外でのデータ）のパフォーマンスを検証した．XQuADに対しては，mBERTの心の性能よりも低くなり，XNLIではoverestimateした．また翻訳家と機械翻訳のデータのBLEUも比較．BLEU値やchrFスコア及びピアソンの相関係数で比較．セクション５でこの４０パラレルの疑似テストデータに対しては評価する．

実験

学習と評価ステップ

このベンチマークの利用者には，学習に利用するデータ，特にクロス言語の信号については明記するように要求する．加えて，ターゲットタスクのラベルデータの追加は推奨していない．

評価においては，我々はゼロショットのクロス言語転移（ソースがラベルありの英語だけ）の設定にフォーカスしている．英語がクロス言語でのベストソースかどうかは実は議論があるが（Lin 2019)，現時点では実用的な選択となっている．具体的には，多言語事前学習モデルを，タスクに合わせて英語のラベルデータでfine-tuningし，ターゲット言語で評価する，というのが流れになる．

ベースライン

mBERT: 多言語BERTの．104言語のWIkipediaでMasked Language Modeling (MLM)を解いて事前学習
XLM: mBERTとにているが，より大きなモデルで大きな共有語彙を採用
XLM-R: XLMと似ているが，はるかに大量のデータ（Web）で学習されている
MMTE: Massively Multilingual Translation Encoder. Webから抽出した103言語のパラレルデータで学習されているin-houseの翻訳機のエンコーダ．
Translate-train: in-houseの翻訳器を使って英語の学習データをターゲット言語へ翻訳し，mBERTをfine-tuneした．
Translate-train multi-task: Translate-trainのマルチタスク版．すべての翻訳された学習データを組み合わせてmBERTをfine-tuning．
Translate-test: 英語でのBERT-Largeを用意．評価時にはin-houseのMTを使ってターゲット言語から英語へ翻訳して評価する
In-language model: POS, NER, TyDiQA-GoldPではターゲット言語の学習データが利用可能．そこでそのターゲット言語でmBERTをfine-tuning．これはターゲット言語のラベルデータの用意がどれぐらい有効かをしることができる
In-language few-shot: 少量ならターゲット言語でも用意できるという考えのもと，ラベルあり1000事例をターゲット言語で用意
In-language multi-task: 単言語での学習が可能なタスクについては，全言語の学習データを組み合わせてjoint学習した
Human performance: 用意できるものに関しては人パフォーマンスを比較用に用意．

結果

全体の結果はTable 2

XLM-Rが全体を通して良い（mBERTよりもかなり）
MMTEはmBERTに対してcompetitive．XNLI, POS, BUCCで良い結果に
すぐれたMTが利用可能な場合は，性能改善に寄与する（Translate-train/test）．
in-languageで学習データが利用可能な場合，これで学習したモデルはゼロショットのモデルをoutperform．しかしゼロショットの多言語モデル（XLM）はTyDiQAではfew-shotのmBERTよりも性能がよい

クロス言語の転移ギャップ（英語とターゲット言語の性能差）をTable３

XLM-RはmBERTよりもだいぶマシだが，依然としてギャップは大きい．分類（XNLI）ではQAなどよりギャップは小さい
MTの利用はギャップを下げるのに有用

分析

SOTAのクロス言語のモデルに関する制約について分析する

ベストゼロショットモデルの分析

XLM-Rをタスク・言語別に性能を分けて表示したものをFig 1に．

XNLIやPAWS-Xの分類タスクでは高いスコアで，言語毎の分散は小さい
他タスクは言語毎に性能のばらつきが大きい
TyDiQAが英語の中では最も低い．
インドーヨーロッパ系の言語では高いパフォーマンス，他中国チベット系，日本，韓国，ニジェール・コンゴ系では低いパフォーマンス．（tokenizationの問題もある）

事前学習のデータサイズとの相関

モデルパフォーマンスとWikipediaの記事数とのピアソンの相関係数をFig 2に．（mBERT）

多くのタスクでは高い相関（0.8）だったが，構造予測のタスクでは0.35（右）とかなり低い．

言語特徴の分析

言語毎の比較をFig 3 (mBERT)

インドーヨーロッパ系（ドイツ，Romance, Slavic言語）では高い性能である一方，ニジェール・コンゴ，Kra-Daiでは低い性能
またNERタスクを例に見ると，中国語や日本語のような表意文字の性能は低く，単語レベルの構文情報は難しいということが分かる

言語毎のエラー分析

XNLIとXQuADではテストセットは英語からの翻訳であった．そこでソース言語とターゲット言語でエラータイプが同じかどうか調べた

XNLI w/ mBERT: 英語での性能は平均71.8%だったが，英語と他言語の一貫性は全事例の68.3%で確認できた
XQuAD w/ mBERT: 英語での正解の60%に一貫性，誤りに対しては20%で一貫性．// 訳が誤ってるかも
ただより詳細な分析が必要

未知コンビネーション及びエンティティへの汎化性能

言語間での性能ギャップが大きかったPOSについて．Universal Dependenciesでは17のPOSタグがある．これは言語間で共通であるが，POSタグのコンビネーション，に関しては未知のコンビネーションを想定して汎化することが必要かもしれない．// 例えば日英では語順が違う

そこでPOSタグのtri-gramと4-gramに関して，POSタグのn-gramの既知と未知でどう性能が変わるか分析（Table 4）．未知のPOSタグN-gramで６〜１０％ものドロップがあり，既存の多言語モデルが構文情報への汎化に手こずっているのが推測できる．// 日英でPOSが弱いのとか

結論

XTREMEという40言語9タスクのベンチマークセットを公開し，既存のSOTA多言語モデルにおいても未だ大きな問題を残していることを指摘した．

Google ResearchとCMUの共同研究で信頼性が高そう．ただ現時点でまだデータにアクセスできなかった
多言語でのトレンドを強く感じる論文
英語を基準にしてよいのか？という問題はあり，問題提起はあるが，現時点では実質公用語の英語を使う以外の実用的な方法はなく，この論文が示している通り日本語は英語と構文的にかなり違うので，多言語モデルで解決するわけもなく結構厳しい状況に置かれている．（ただし日本語は言語資産が他マイナー言語よりは豊富なので，モノリンガルでもしばらくは問題なさそう）

jojonki / arXivNotes