Open knok opened 3 years ago
Marco Di Giovanni, Marco Brambilla
https://arxiv.org/abs/2110.02030v1
S-BERTなどのtriplet lossによって高品質な文埋め込みを求める手法では、正確なアノテーション情報を付与したデータ群が必要という課題がある。 Twitterの引用やリプライ関係を用いることでtriplet用データを作成し、その結果で精度がどれほど出るかを調査。 結果として、データの品質はそこまで高くなくてもこの方法でそれなりの文埋め込みを求められることを示した。 この方法はさまざまな言語にも応用できる利点がある。
コード: https://github.com/marco-digio/twitter4sse
Marco Di Giovanni, Marco Brambilla
https://arxiv.org/abs/2110.02030v1
概要
S-BERTなどのtriplet lossによって高品質な文埋め込みを求める手法では、正確なアノテーション情報を付与したデータ群が必要という課題がある。 Twitterの引用やリプライ関係を用いることでtriplet用データを作成し、その結果で精度がどれほど出るかを調査。 結果として、データの品質はそこまで高くなくてもこの方法でそれなりの文埋め込みを求められることを示した。 この方法はさまざまな言語にも応用できる利点がある。
コード: https://github.com/marco-digio/twitter4sse