Marco Di Giovanni, Marco Brambilla

概要

S-BERTなどのtriplet lossによって高品質な文埋め込みを求める手法では、正確なアノテーション情報を付与したデータ群が必要という課題がある。 Twitterの引用やリプライ関係を用いることでtriplet用データを作成し、その結果で精度がどれほど出るかを調査。結果として、データの品質はそこまで高くなくてもこの方法でそれなりの文埋め込みを求められることを示した。この方法はさまざまな言語にも応用できる利点がある。

コード: https://github.com/marco-digio/twitter4sse

knok / arxiv-memo

Exploiting Twitter as Source of Large Corpora of Weakly Similar Pairs for Semantic Sentence Embeddings #155

概要