nogawanogawa / paper_memo

4 stars 0 forks source link

SimCSE: Simple Contrastive Learning of Sentence Embeddings #18

Closed nogawanogawa closed 2 years ago

nogawanogawa commented 2 years ago

論文URL

https://arxiv.org/abs/2104.08821

著者

Tianyu Gao, Xingcheng Yao, Danqi Chen

会議

EMNLP 2021

背景

効果的な分散表現を獲得することは、それを用いたNLPタスクの精度を上げることに寄与する。

目的

効果的なContrastive Learningで効率よく、より良い分散表現を獲得したい

アプローチ

参考

https://tech.retrieva.jp/entry/2021/10/12/130850

nogawanogawa commented 2 years ago

アプローチ

教師なし

学習済みのBERTに同じ文を二度入力する。 このとき、Dropoutによって出力は微妙に異なる。

スクリーンショット 2021-10-14 14 50 11

これは最小限のdata augmentationと考えられ、それを対応したい。

教師なしのケースでは、

スクリーンショット 2021-10-14 15 51 48

教師あり

教師ありのときは、矛盾するケースも含め、下記のようなロスを最小化するように学習する。

スクリーンショット 2021-10-14 15 51 05
nogawanogawa commented 2 years ago

STSでの評価

Semantic textual similarity tasksでの評価。

スクリーンショット 2021-10-14 16 05 45

普通にBERTやRoBERTaを使うより優れいることを確認。

分布の妥当性

下図の左下に行くほど、まんべんなく分布して、かつ似た意味の文が近くに存在することを表す。 左下に位置しているので、提案手法はすごそう。

スクリーンショット 2021-10-14 16 00 34