knok / arxiv-memo

My arxiv papers memo
0 stars 0 forks source link

Exploiting Twitter as Source of Large Corpora of Weakly Similar Pairs for Semantic Sentence Embeddings #155

Open knok opened 3 years ago

knok commented 3 years ago

Marco Di Giovanni, Marco Brambilla

https://arxiv.org/abs/2110.02030v1

概要

S-BERTなどのtriplet lossによって高品質な文埋め込みを求める手法では、正確なアノテーション情報を付与したデータ群が必要という課題がある。 Twitterの引用やリプライ関係を用いることでtriplet用データを作成し、その結果で精度がどれほど出るかを調査。 結果として、データの品質はそこまで高くなくてもこの方法でそれなりの文埋め込みを求められることを示した。 この方法はさまざまな言語にも応用できる利点がある。

コード: https://github.com/marco-digio/twitter4sse