AkihikoWatanabe commented 12 months ago

URL

https://arxiv.org/abs/2104.08821
Affiliations
- Tianyu Gao, N/A
- Xingcheng Yao, N/A
- Danqi Chen, N/A
  Abstract
- This paper presents SimCSE, a simple contrastive learning framework thatgreatly advances state-of-the-art sentence embeddings. We first describe anunsupervised approach, which takes an input sentence and predicts itself in acontrastive objective, with only standard dropout used as noise. This simplemethod works surprisingly well, performing on par with previous supervisedcounterparts. We find that dropout acts as minimal data augmentation, andremoving it leads to a representation collapse. Then, we propose a supervisedapproach, which incorporates annotated pairs from natural language inferencedatasets into our contrastive learning framework by using "entailment" pairs aspositives and "contradiction" pairs as hard negatives. We evaluate SimCSE onstandard semantic textual similarity (STS) tasks, and our unsupervised andsupervised models using BERT base achieve an average of 76.3% and 81.6%Spearman's correlation respectively, a 4.2% and 2.2% improvement compared tothe previous best results. We also show -- both theoretically and empirically-- that the contrastive learning objective regularizes pre-trained embeddings'anisotropic space to be more uniform, and it better aligns positive pairs whensupervised signals are available.
  Translation (by gpt-3.5-turbo)
この論文では、SimCSEというシンプルな対比学習フレームワークを提案します。このフレームワークは、最先端の文の埋め込み技術を大幅に進化させます。まず、教師なしアプローチを説明します。このアプローチでは、入力文を取り、標準的なドロップアウトをノイズとして使用して、自己を対比的な目的で予測します。このシンプルな方法は驚くほどうまく機能し、以前の教師ありの手法と同等の性能を発揮します。ドロップアウトは最小限のデータ拡張として機能し、それを削除すると表現が崩壊します。次に、教師ありアプローチを提案します。このアプローチでは、自然言語推論データセットから注釈付きのペアを取り入れ、"entailment"ペアを正例、"contradiction"ペアをハードネガティブとして対比学習フレームワークに組み込みます。SimCSEを標準的な意味的テキスト類似性（STS）タスクで評価し、BERTベースの教師なしモデルと教師ありモデルは、それぞれ平均76.3％と81.6％のスピアマンの相関を達成し、以前の最高結果と比較して4.2％と2.2％の改善を実現します。また、理論的および実証的に、対比学習の目的は、事前学習された埋め込みの非等方性空間をより均一に正則化し、教師信号が利用可能な場合には正のペアをよりよく整列させることを示します。
Summary (by gpt-3.5-turbo)
この論文では、SimCSEという対比学習フレームワークを提案しています。このフレームワークは、文の埋め込み技術を進化させることができます。教師なしアプローチでは、入力文をノイズとして扱い、自己を対比的に予測します。教師ありアプローチでは、自然言語推論データセットから注釈付きのペアを使用して対比学習を行います。SimCSEは、意味的テキスト類似性タスクで評価され、以前の手法と比較して改善を実現しました。対比学習は、事前学習された埋め込みの空間を均一に正則化し、教師信号が利用可能な場合には正のペアをよりよく整列させることが示されました。

AkihikoWatanabe commented 12 months ago

462 よりも性能良く、unsupervisedでも学習できる。STSタスクのベースラインにだいたい入ってる

AkihikoWatanabe commented 12 months ago

手法概要

Contrastive Learningを活用して、unsupervised/supervisedに学習を実施する。 Unsupervised SimCSEでは、あるsentenceをencoderに2回入力し、それぞれにdropoutを適用させることで、positive pairを作成する。dropoutによって共通のembeddingから異なる要素がマスクされた（noiseが混ざった状態とみなせる）類似したembeddingが作成され、ある種のdata augmentationによって正例を作成しているともいえる。負例はnegative samplingする。（非常にsimpleだが、next sentence predictionで学習するより性能が良くなる） Supervised SimCSEでは、アノテーションされたsentence pairに基づいて、正例・負例を決定する。本研究では、NLIのデータセットにおいて、entailment関係にあるものは正例として扱う。contradictions（矛盾）関係にあるものは負例として扱う。

Siamese Networkで用いられるmeans-squared errrorとContrastiveObjectiveの違い

どちらもペアワイズで比較するという点では一緒だが、ContrastiveObjectiveは正例と近づいたとき、負例と遠ざかったときにlossが小さくなるような定式化がされている点が異なる。（画像はこのブログから引用。ありがとうございます。https://techblog.cccmk.co.jp/entry/2022/08/30/163625）

Unsupervised SimCSEの実験

異なるdata augmentation手法と比較した結果、dropoutを適用する手法の方が性能が高かった。MLMや, deletion, 類義語への置き換え等よりも高い性能を獲得しているのは興味深い。また、Next Sentence Predictionと比較しても、高い性能を達成。Next Sentence Predictionは、word deletion等のほぼ類似したテキストから直接的に類似関係にあるペアから学習するというより、Sentenceの意味内容のつながりに基づいてモデルの言語理解能力を向上させ、そのうえで類似度を測るという間接的な手法だが、word deletionに負けている。一方、dropoutを適用するだけの（直接的に類似ペアから学習する）本手法はより高い性能を示している。 image

なぜうまくいくかを分析するために、異なる設定で実験し、alignment（正例との近さ）とuniformity（どれだけembeddingが一様に分布しているか）を、10 stepごとにplotした結果が以下。dropoutを適用しない場合と、常に同じ部分をマスクする方法（つまり、全く同じembeddingから学習する）設定を見ると、学習が進むにつれuniformityは改善するが、alignmentが悪くなっていっている。一方、SimCSEはalignmentを維持しつつ、uniformityもよくなっていっていることがわかる。

Supervised SimCSEの実験

アノテーションデータを用いてContrastiveLearningするにあたり、どういったデータを正例としてみなすと良いかを検証するために様々なデータセットで学習し性能を検証した。

QQP4: Quora question pairs
Flickr30k (Young et al., 2014): 同じ画像に対して、5つの異なる人間が記述したキャプションが存在
ParaNMT (Wieting and Gimpel, 2018): back-translationによるparaphraseのデータセットa
NLI datasets: SNLIとMNLI

実験の結果、NLI datasetsが最も高い性能を示した。この理由としては、NLIデータセットは、crowd sourcingタスクで人手で作成された高品質なデータセットであることと、lexical overlapが小さくなるようにsentenceのペアが作成されていることが起因している。実際、NLI datsetのlexical overlapは39%だったのに対し、ほかのデータセットでは60%であった。

また、condunctionsとなるペアを明示的に負例として与えることで、より性能が向上した（普通はnegative samplingする、というかバッチ内の正例以外のものを強制的に負例とする。こうすると、意味が同じでも負例になってしまう事例が出てくることになる）。より難しいNLIタスクを含むANLIデータセットを追加した場合は、性能が改善しなかった。この理由については考察されていない。性能向上しそうな気がするのに。

AkihikoWatanabe commented 12 months ago

他手法との比較結果

SimCSEがよい。

Ablation Studies

異なるpooling方法で、どのようにsentence embeddingを作成するかで性能の違いを見た。originalのBERTの実装では、CLS token のembeddingの上にMLP layerがのっかっている。これの有無などと比較。 Unsupervised SimCSEでは、training時だけMLP layerをのっけて、test時はMLPを除いた方が良かった。一方、Supervised SimCSEでは、 MLP layerをのっけたまんまで良かったとのこと。

AkihikoWatanabe commented 12 months ago

また、SimCSEで学習したsentence embeddingを別タスクにtransferして活用する際には、SimCSEのobjectiveにMLMを入れた方が、catastrophic forgettingを防げて性能が高かったとのこと。

AkihikoWatanabe commented 12 months ago

ablation studiesのhard negativesのところと、どのようにミニバッチを構成するか、それぞれのtransferしたタスクがどのようなものがしっかり読めていない。あとでよむ。

AkihikoWatanabe / paper_notes

SimCSE: Simple Contrastive Learning of Sentence Embeddings, Tianyu Gao+, N/A, EMNLP'21 #907

URL

Affiliations

Abstract

Translation (by gpt-3.5-turbo)

Summary (by gpt-3.5-turbo)

462 よりも性能良く、unsupervisedでも学習できる。STSタスクのベースラインにだいたい入ってる

手法概要

Siamese Networkで用いられるmeans-squared errrorとContrastiveObjectiveの違い

Unsupervised SimCSEの実験

Supervised SimCSEの実験

他手法との比較結果

Ablation Studies