SimCSE: Simple Contrastive Learning of Sentence Embeddings

ひとことで言うと

dropoutのランダム性を変えてエンコードした同一文の表現を近づけるような学習をすることで良い文ベクトルを獲得

教師なし設定では dropoutのランダム性を変えてエンコードした同一文の表現を近づけるようなcontrastive learningをする普通のデータ拡張の手法やNLIのようにconstastive learningするモデルより強い

教師なし設定ではNLIのデータセットを用い、既存研究の3-way classification taskではなく cotrastive learningにより、性能が既存手法より良いことを示した。

STS

よくわからない点がいくつかある。