Charformer: Fast Character Transformers via Gradient-based Subword Tokenization

1 はじめに

ニューラルネットワークは、自然言語処理（NLP）において、膨大な量のデータからエンド・ツー・エンドで学習される機能のスタックに、特徴を生かしたモデルを置き換えることで、多大な成功を収めてきました［Mikolovら、2013、Petersら、2018、Howard and Ruder、2018］。伝統的なNLPパイプライン[Manning and Schütze, 1999]の中で、これまで勾配ベースの学習に抵抗してきた唯一のコンポーネントは、前処理ステップとして一般的に適用されているトークン化です。最先端の事前学習済み言語モデル［Devlin et al., 2019］は一般的に、データ駆動型のサブワードベースのトークン化アルゴリズム［Schuster and Nakajima, 2012, Sennrich et al., 2016, Wu et al., 2016, Kudo and Richardson, 2018］に依存しており、一方で、中国語、タイ語、韓国語などのホワイトスペースの分離がない言語では、専門家が作成したセグメンテーションアルゴリズムが依然として一般的に使用されている［Lample and Conneau, 2019参照］。このように、硬いトークン化方法に依存することで、現在のNLPシステムにボトルネックを導入し、その能力を制限している。サブワード分割アルゴリズムは、語彙的または意味的な類似性を考慮することなく、頻度のみに基づいてトークンをサブワードに分割する。その結果、モデルは希少な単語[Gong et al., 2018]や、自然なものと敵対的なものの両方の摂動[Belinkov and Bisk, 2018, Pruthi et al., 2019, Sun et al., 2020]に対して脆い。多言語モデルでは、低リソース言語のトークンが多くのサブワードに分割され、それらの言語でのパフォーマンスに影響を与え、クロスリンガルトランスファーを悪化させる［Hu et al., 2020, Wang et al. 最後に，トークン化アルゴリズムを個別に使用すると，事前に学習した言語モデルを新しい設定に適応させる際に，事前の学習と下流の単語の分布との間にミスマッチが生じ，これを克服するためには多大なエンジニアリングの努力が必要となる．また，文字レベルのモデリングを事前学習済みの言語モデルに直接適用すると，シーケンスの長さが長くなるため，計算とメモリの複雑さが著しく増し，一般的に性能が低下します．

この問題を解決するために、我々は「勾配ベースのサブワードトークン化」（GBST）を提案する。これは、文字レベル表現の構成性とサブワードトークン化の効率性を組み合わせ、エンドツーエンドの学習を可能にする新しい手法である。本手法は、大量のラベルなしデータを用いて、文字から潜在的なサブワード表現を学習します。具体的には、GBSTは、サブワード候補ブロックをスコアリングネットワークでスコアリングすることにより、位置に応じたソフトセレクションを学習します。先行するトークン化不要の手法[Clark et al., 2021]とは対照的に、GBSTは解釈可能な潜在的なサブワードを学習するため、語彙表現の検査が容易であり、他のバイトベースのモデルよりも効率的です[Xue et al., 2021]。文字とバイトのシーケンスに標準的なTransformerを適用するだけでは計算量が膨大になることを考えると、GBSTは、使用可能で実用的かつ高性能な文字レベルのモデルに道を開くものです。 GBSTモジュールがどのように適用されるのか、その概要は図1に示されています。

さらに、CHARFORMERを紹介します。 CHARFORMERは、バイトレベルで直接操作するためにGBSTを使用するTransformerのエンコーダ/デコーダモデルです。さらに、CHARFORMERの再スケーリングされたバージョンを実験し、離散的なサブワードエンベッディングの欠如を補うために、エンコーダに追加の容量を割り当てました。我々のモデルを、標準的な英語、非標準的な英語、多言語の下流タスクの範囲で評価した。英語のGLUEと長い文書の分類タスクにおいて、CHARFORMERは強力なバイトレベルのベースラインを上回り、全体としてBERT [Devlin et al., 2019]やT5 [Raffel et al., 2020]などのサブワードベースのモデルと同等の性能を達成しています。ソーシャルメディアのデータセットにおける毒性検出[Borkan et al., 2019, Wulczyn et al., 2017]では、CHARFORMERはバイトレベルのベースラインやサブワードベースのモデルを上回り、スペルのばらつきや非標準的な言語に対する堅牢性を示しています。最後に、多言語で事前学習されたCHARFORMERは、標準的なクロスリンガル・データセットにおいて、強力なサブワードベースの多言語ベースラインと同等かそれ以上の性能を発揮します。さらに、CHARFORMERは、同数のパラメータを持つバイトレベルやサブワードベースのモデルと比較して、より効率的であることを実証しました。同等の設定で、CHARFORMERは、最近の最先端のバイトレベル・モデルByT5 [Xue et al., 2021]に類似したベースラインを、2倍のメモリ効率と10%から93%の速度で凌駕しました。また、CHARFORMERは、サブワードレベルのmT5モデル[Xue et al., 2020]よりも28%高速に学習し、パラメータ数は3倍少なく、定評のあるベンチマークで同等の品質を達成しています。最後に、CHARFORMERによって学習された潜在的なサブワードがある程度解釈可能であることを視覚化によって実証する。オープンソースコード Mesh Tensorflow [Shazeer et al., 2018]で実装され、T5ライブラリと互換性のある我々のコードは、https://github.com/google-research/google-research/tree/master/charformer で公開されています。このコードベースは、その後、近い将来、CHARFORMERのJaxバージョンで更新される予定です。

e4exp / paper_manager_abstract

Charformer: Fast Character Transformers via Gradient-based Subword Tokenization #593

1 はじめに