Open jojonki opened 4 years ago
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization Junjie Hu, Sebastian Ruder, Aditya Siddhant, Graham Neubig, Orhan Firat, Melvin Johnson https://arxiv.org/abs/2003.11080 Google AI Blog: https://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html Jeff Dean氏のツイート: https://twitter.com/JeffDean/status/1249941468300500998 detaset: https://research.google/xtreme/ // not found...
40言語9タスクのベンチマークセット,Cross-lingual TRansfer Evaluation of Multilingual Encoders (XTREME)の公開.英語ではすでに人レベルに達しているモデルでも,特に構文や文抽出タスクでクロス言語転移のパフォーマンスギャップが大きいことを実験で示す.
世界へNLPのを提供するには約6900もの言語に対応する必要がある.ただしこれはデータセットが限られている点において難しい.ただし幸運にも多くの言語は構文や語彙において類似性があり,多言語学習も多く研究されている.そして,ここ数年は,多様なアプリケーションに対する"汎用的な多言語表現の実現"がトレンドとして存在する.ただしその実行に向けてはやはり評価データが不足している.
そこで40言語,12言語ファミリー,9タスクのXTREMEを提案.加えて,NLIとQAの英語のテストセットを残る40言語に機械翻訳することによる疑似の診断テストデータも提供する.
XTREMEでは,ゼロショットのクロス言語転移のシナリオにフォーカスする.つまりアノテーションされたデータは英語だけであり,他言語への転移を検討するというものである.これは現実の設定に即したものである.我々はSOTAな翻訳や多言語表現モデルを試し,英語では人に達しているモデルにおいても,他言語では,特に構文や文抽出タスクで大きなドロップを確認.またインドーヨロッパファミリーでは良いパフォーマンスを確認したものの,中国チベット系,日本語,韓国語,ニジェール・コンゴ系では低パフォーマンスを確認
本論文の貢献ポイント
省略.クロス言語表現,評価,に関する研究が紹介されている.
まずWIkipediaの記事数が多いトップ100の言語から,我々のベンチマークセットで3回以上登場しているもの(19言語)と追加で1回以上登場している言語(21言語)を選択.合計40言語.
XTREMEは40言語をカバーしているといったが,POS, NER, Tatoebaでのみ有効.そのため,表現分類及びQAの英語データをin-houseの翻訳システムを使って他言語へ翻訳した.XNLIとXQuADは,プロの翻訳家による英語の翻訳テストデータがあるため選択.// ? まず最初に翻訳したテストセット(英語以外でのデータ)のパフォーマンスを検証した.XQuADに対しては,mBERTの心の性能よりも低くなり,XNLIではoverestimateした.また翻訳家と機械翻訳のデータのBLEUも比較.BLEU値やchrFスコア及びピアソンの相関係数で比較.セクション5でこの40パラレルの疑似テストデータに対しては評価する.
このベンチマークの利用者には,学習に利用するデータ,特にクロス言語の信号については明記するように要求する.加えて,ターゲットタスクのラベルデータの追加は推奨していない.
評価においては,我々はゼロショットのクロス言語転移(ソースがラベルありの英語だけ)の設定にフォーカスしている.英語がクロス言語でのベストソースかどうかは実は議論があるが(Lin 2019),現時点では実用的な選択となっている. 具体的には,多言語事前学習モデルを,タスクに合わせて英語のラベルデータでfine-tuningし,ターゲット言語で評価する,というのが流れになる.
全体の結果はTable 2
クロス言語の転移ギャップ(英語とターゲット言語の性能差)をTable3
SOTAのクロス言語のモデルに関する制約について分析する
XLM-Rをタスク・言語別に性能を分けて表示したものをFig 1に.
モデルパフォーマンスとWikipediaの記事数とのピアソンの相関係数をFig 2に.(mBERT)
言語毎の比較をFig 3 (mBERT)
XNLIとXQuADではテストセットは英語からの翻訳であった.そこでソース言語とターゲット言語でエラータイプが同じかどうか調べた
言語間での性能ギャップが大きかったPOSについて.Universal Dependenciesでは17のPOSタグがある.これは言語間で共通であるが,POSタグのコンビネーション,に関しては未知のコンビネーションを想定して汎化することが必要かもしれない.// 例えば日英では語順が違う
そこでPOSタグのtri-gramと4-gramに関して,POSタグのn-gramの既知と未知でどう性能が変わるか分析(Table 4).未知のPOSタグN-gramで6〜10%ものドロップがあり,既存の多言語モデルが構文情報への汎化に手こずっているのが推測できる.// 日英でPOSが弱いのとか
XTREMEという40言語9タスクのベンチマークセットを公開し,既存のSOTA多言語モデルにおいても未だ大きな問題を残していることを指摘した.
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization Junjie Hu, Sebastian Ruder, Aditya Siddhant, Graham Neubig, Orhan Firat, Melvin Johnson https://arxiv.org/abs/2003.11080 Google AI Blog: https://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html Jeff Dean氏のツイート: https://twitter.com/JeffDean/status/1249941468300500998 detaset: https://research.google/xtreme/ // not found...
概要
40言語9タスクのベンチマークセット,Cross-lingual TRansfer Evaluation of Multilingual Encoders (XTREME)の公開.英語ではすでに人レベルに達しているモデルでも,特に構文や文抽出タスクでクロス言語転移のパフォーマンスギャップが大きいことを実験で示す.
イントロ
世界へNLPのを提供するには約6900もの言語に対応する必要がある.ただしこれはデータセットが限られている点において難しい.ただし幸運にも多くの言語は構文や語彙において類似性があり,多言語学習も多く研究されている.そして,ここ数年は,多様なアプリケーションに対する"汎用的な多言語表現の実現"がトレンドとして存在する.ただしその実行に向けてはやはり評価データが不足している.
そこで40言語,12言語ファミリー,9タスクのXTREMEを提案.加えて,NLIとQAの英語のテストセットを残る40言語に機械翻訳することによる疑似の診断テストデータも提供する.
XTREMEでは,ゼロショットのクロス言語転移のシナリオにフォーカスする.つまりアノテーションされたデータは英語だけであり,他言語への転移を検討するというものである.これは現実の設定に即したものである.我々はSOTAな翻訳や多言語表現モデルを試し,英語では人に達しているモデルにおいても,他言語では,特に構文や文抽出タスクで大きなドロップを確認.またインドーヨロッパファミリーでは良いパフォーマンスを確認したものの,中国チベット系,日本語,韓国語,ニジェール・コンゴ系では低パフォーマンスを確認
本論文の貢献ポイント
関連研究
省略.クロス言語表現,評価,に関する研究が紹介されている.
XTREME
設計思想
選定タスク
選定言語
まずWIkipediaの記事数が多いトップ100の言語から,我々のベンチマークセットで3回以上登場しているもの(19言語)と追加で1回以上登場している言語(21言語)を選択.合計40言語.
分析のための疑似テストデータ
XTREMEは40言語をカバーしているといったが,POS, NER, Tatoebaでのみ有効.そのため,表現分類及びQAの英語データをin-houseの翻訳システムを使って他言語へ翻訳した.XNLIとXQuADは,プロの翻訳家による英語の翻訳テストデータがあるため選択.// ? まず最初に翻訳したテストセット(英語以外でのデータ)のパフォーマンスを検証した.XQuADに対しては,mBERTの心の性能よりも低くなり,XNLIではoverestimateした.また翻訳家と機械翻訳のデータのBLEUも比較.BLEU値やchrFスコア及びピアソンの相関係数で比較.セクション5でこの40パラレルの疑似テストデータに対しては評価する.
実験
学習と評価ステップ
このベンチマークの利用者には,学習に利用するデータ,特にクロス言語の信号については明記するように要求する.加えて,ターゲットタスクのラベルデータの追加は推奨していない.
評価においては,我々はゼロショットのクロス言語転移(ソースがラベルありの英語だけ)の設定にフォーカスしている.英語がクロス言語でのベストソースかどうかは実は議論があるが(Lin 2019),現時点では実用的な選択となっている. 具体的には,多言語事前学習モデルを,タスクに合わせて英語のラベルデータでfine-tuningし,ターゲット言語で評価する,というのが流れになる.
ベースライン
結果
全体の結果はTable 2
クロス言語の転移ギャップ(英語とターゲット言語の性能差)をTable3
分析
SOTAのクロス言語のモデルに関する制約について分析する
ベストゼロショットモデルの分析
XLM-Rをタスク・言語別に性能を分けて表示したものをFig 1に.
事前学習のデータサイズとの相関
モデルパフォーマンスとWikipediaの記事数とのピアソンの相関係数をFig 2に.(mBERT)
言語特徴の分析
言語毎の比較をFig 3 (mBERT)
言語毎のエラー分析
XNLIとXQuADではテストセットは英語からの翻訳であった.そこでソース言語とターゲット言語でエラータイプが同じかどうか調べた
未知コンビネーション及びエンティティへの汎化性能
言語間での性能ギャップが大きかったPOSについて.Universal Dependenciesでは17のPOSタグがある.これは言語間で共通であるが,POSタグのコンビネーション,に関しては未知のコンビネーションを想定して汎化することが必要かもしれない.// 例えば日英では語順が違う
そこでPOSタグのtri-gramと4-gramに関して,POSタグのn-gramの既知と未知でどう性能が変わるか分析(Table 4).未知のPOSタグN-gramで6〜10%ものドロップがあり,既存の多言語モデルが構文情報への汎化に手こずっているのが推測できる.// 日英でPOSが弱いのとか
結論
XTREMEという40言語9タスクのベンチマークセットを公開し,既存のSOTA多言語モデルにおいても未だ大きな問題を残していることを指摘した.
コメント