Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text Models

e4exp commented 2 years ago

https://arxiv.org/abs/2108.08877
2021

本研究では、テキストからテキストへの変換（T5）による文の埋め込みを初めて調査した。文の埋め込みは、言語処理タスクに広く利用されています。 T5は、配列から配列へのマッピング問題などの言語タスクで素晴らしい性能を達成しているが、エンコーダ・デコーダモデルから文埋め込みを生成する方法は不明である。本研究では，T5文の埋め込みを行うための3つの方法を検討した． 2つの方法はT5エンコーダのみを利用し，1つの方法はT5エンコーダ・デコーダモデルを利用する．エンコーダのみのモデルは、転送タスクと意味的テキスト類似性（STS）の両方において、BERTベースの文の埋め込みよりも優れています。我々のエンコーダ-デコーダ法は、STSにおいてさらなる改善を達成した。 T5を数百万から数十億のパラメータにスケールアップすることで、下流のタスクにおいて一貫した改善が得られることがわかった。最後に、文の埋め込みを用いたSTSにおいて、Sentence BERT (Reimers and Gurevych, 2019)とSimCSE (Gao et al., 2021)の両方を上回り、新たな技術を達成する2段階の対照学習手法を紹介する。

e4exp commented 2 years ago

1 はじめに

コンパクトな意味表現を提供するセンテンスエンベッディングは、分類、質問応答、意味検索、ビットテキストマイニング、意味的類似性タスクなど、さまざまな言語処理タスクに幅広く役立ちます。文章埋め込みモデルは、自然言語推論（Conneau et al., 2017; Gao et al., 2021）などの教師付きタスクや、質問と回答のペア（Cer et al., 2018）、翻訳ペア（Yang et al., 2020a; Feng et al., 2020）、隣接文ペア（Kiros et al 2015; Logeswaran and Lee, 2018）などの半構造化データを用いて、さまざまな方法で学習されてきた。最近の研究では、モデルのパラメータをスケールアップすることと、事前に訓練されたモデルを活用すること（Devlinら、2019年、Liuら、2019年）が、パフォーマンスを向上させるための2つの効果的なアプローチであることが示されている（Reimers and Gurevych, 2019, 2020; Yangら、2020b; Gaoら、2021）。

私たちは、事前に訓練されたモデルの新しいファミリーから文の埋め込みを探ります。 Text-to-Text Transfer Transformer (T5) (Raffel et al., 2020)です。トランスフォーマーのエンコーダーを使用してランダムなマスクされたトークンを予測するエンコーダーのみのモデルとは異なり、T5はエンコーダー-デコーダーのアーキテクチャと生成的なスパンコーションの事前学習タスクを使用します。 T5モデルは、数千億のパラメータにスケールアップすることができ（Fedusら、2021年）、GLUE（Wangら、2018年）およびSuperGLUE（Wangら、2019年）を含む広範なNLPタスクで最先端の性能を達成しています。

しかし、検索やクラスタリングなどの一部のタスクにT5を効率的に適用することは困難です。検索候補をスコアリングするためには、T5は各クエリと候補のペアに対してクロスアテンションによる完全な推論を行う必要がある。これに対して、文の埋め込みは、効率的な検索やクラスタリングを可能にする(Gillick et al., 2018; Reimers and Gurevych, 2019; Yang et al., 2020a)。図2に示すように、事前に訓練されたT5エンコーダ・デコーダモデルを文の埋め込みモデルに変える3つの方法を検討する。

(i)エンコーダの最初のトークン表現を使う、 (ii)エンコーダのすべてのトークン表現を平均化する、 (iii)デコーダの最初のトークン表現を使う。

結果として得られた文の埋め込みの品質を、SentEval（Conneau and Kiela, 2018）を用いた文の転送タスクと、意味的なテキストの類似性（Agirre et al. 事前に訓練されたT5モデルからの生の表現と、デュアルエンコーダと対比学習（Conneau et al., 2017; Cer et al., 2018; Yang et al., 2018; Gao et al., 2021）を用いた自然言語推論（NLI）と検索質問応答（ReQA）（Ahmad et al., 2019）に関する微調整によって学習された表現を対比させる。最初にReQAで、次にNLIでの微調整を含む多段階のコントラスト学習レシピを紹介します。最後に、私たちのT5文の埋め込みモデルを11Bパラメータまでスケールアップすることを調査する。図1に示すように、転送タスクとSTSは、モデル容量の増加に伴って向上した。我々の最良のモデルは、SentEvalで91.48、STS Benchmark (Cer et al., 2017)で84.94を達成し、以前の最先端モデルと比較して、それぞれ+1.25、+1.18の向上を実現した。我々の知る限り、文表現の学習に大規模な事前学習済みtext-to-textモデルを使用することを研究し、文の埋め込みモデルを110億個のパラメータまでスケールアップしたのは我々が初めてである。

我々の貢献を以下のようにまとめる。

(i) 細かい調整を行わなくても、エンコーダのみのST5モデルは文の転送タスクで優れた性能を発揮し、SimBERTやSimRoBERTaなどの最先端の細かい調整を行ったモデルを上回る(Gao et al., 2021) (ii) エンコーダー・デコーダー文の埋め込みモデルがSTSで強力な性能を発揮し、文の埋め込みに基づくSTSの新たな最新技術を確立した (iii) 対比学習は、T5スタイルの事前学習モデルから文エンコーダーを微調整するのに効果的であり、特に我々が提案する2段階の対比学習アプローチを用いている。 (iv) 対比学習を用いてST5をより長く、より多くのデータで学習すると、文の伝達とSTSの両方のタスクで一貫した改善が得られる。我々はこのモデルをSentence T5 (ST5)と名付けた。

e4exp commented 2 years ago

2 Text-to-Text Transfer Transformer (T5)

Text-to-Text Transfer Transformer (T5) (Raffel et al., 2020)は、単純なテキスト間マッピング問題として様々なタスクを解決する競争力のある性能と使いやすさで人気を集めている。図2aに示すように、T5は、教師なしのスパン破損タスクで事前に学習されたエンコーダ-デコーダ変換モデル（Vaswani et al.、2017）で構成されています。 T5は数多くのNLPタスクへの適用に成功していますが、T5から高品質のテキスト表現を抽出する方法はまだ未解明です。

3 文章T5

3.1 モデルアーキテクチャ

本研究では、T5から文章表現を抽出するために、図2b～2dに示すような3つの戦略を検討する。

エンコーダのみを用いる方法（ST5-Enc first）。

最初のトークンのエンコーダー出力を文のエンベッディングとする。

Encoder-only mean (ST5-Enc mean):

すべての入力トークンのエンコーダ出力の平均値を文のエンベッディングとします

Encoder-Decoder first (ST5-EncDec first):

最初のデコーダ出力を文のエンベッディングとします。デコーダ出力を得るためには、入力テキストをエンコーダに入力し、標準的な「開始」記号を最初のデコーダ入力として入力する。

最初の 2 つは、BERT のようなエンコーダのみの事前学習モデルで広く使用されているプーリング戦略です。 BERT モデルとは異なり、T5 モデルには、各文の先頭に CLS トークンがありません。 T5 エンコーダ・デコーダモデルでは、デコーダが最初のトークン予測を生成する際に、入力文全体の意味を認識していると想定しています。そうであれば、最初のデコーダ出力埋め込み（すなわち、ソフトマックス層への入力）は、文の意味を自然に捉えている可能性があります。文章エンコーダの学習には、デュアルエンコーダアーキテクチャを採用する（Gillick et al., 2018; Cer et al., 2018; Reimers and Gurevych, 2019）。図3に示すように、このアーキテクチャは、入力をエンコードする2つの共有ウェイトのトランスフォーマーモジュールで構成されています。

変圧器モジュールは、エンコーダオンリーまたはエンコーダデコーダのいずれかのアーキテクチャにすることができます。今回の実験では、事前に学習したT5モデルから変換モジュールを初期化します。各モジュールが入力文の固定長表現を計算した後，結果として得られたエンベッディングにプロジェクション層とL2正規化が適用される．投影層では、出力を設定可能な固定次元（文の埋め込みサイズ）に変換します。ペアのエンコーディングタワーからのエンベディングは、ドットプロダクト2を用いた類似性タスクのためにスコアリングされたり、ペアごとの分類タスク（NLIなど）のための追加レイヤーの入力として提供されます。

3.2 対比学習

文章の埋め込みに対比学習を適用することで、埋め込み空間の均一性が向上し、STSなどの下流タスクでのパフォーマンスが向上する(Gao et al., 2021)。

3.2.1 対比学習

対比学習を用いて文エンコーダーを学習するには、学習セットとしてペアの例 D = {(vi , v+ i )} が必要であり、vi は入力文、v + i は関連する文（例えば、意味的に近い文）である。学習時には、v + i を vi の正の例とし、バッチ内の他のすべての例を負の例とする。モデルは、正の例を入力例に近づけ、負の例を押しのけるように学習する必要がある。対照的な損失は、バッチ内サンプリングされたソフトマックスを用いて運用します（Henderson et al.

類似性スコアリング関数はsimです。Bは例のミニバッチ、τはソフトマックス温度です。入力例vに対して追加の否定値v - jが提供された場合、損失は次のように計算されます。

3.3 2段階の学習

追加の学習データの効果を調べるために、2段階の学習を検討する。 (i)まず、コミュニティQAサイトからマイニングされた質問応答データでトレーニングを行い、 (ii)その後、人間が注釈をつけたNRIラベルを持つ文ペアでモデルの微調整を行う。

e4exp / paper_manager_abstract