nogawanogawa / paper_memo

4 stars 0 forks source link

End-to-End Retrieval in Continuous Space #34

Closed nogawanogawa closed 2 years ago

nogawanogawa commented 2 years ago

論文URL

https://arxiv.org/abs/1811.08008

著者

Daniel Gillick, Alessandro Presta, Gaurav Singh Tomar

会議

多分なし

背景

従来の転置インデックスを使用した離散検索とは異なり、表現学習を用いた連続空間での検索は様々な利点が期待されている。 しかしながら、連続検索はこれまで主に離散検索の結果のリランキング用途として使用され、End-to-Endで検索にテキスト表現を学習したモデルは使用されてこなかった。

目的

標準的なANN検索を用いた連続検索による検索システムの構築

アプローチ

nogawanogawa commented 2 years ago

背景

今から約30年前に、現在でも広く使用されている標準的な検索システムに関する欠点が指摘されている。 "問題なのは、ユーザーは概念的な内容に基づいて検索を行いたいが、個々の単語からでは文書の概念的なトピックや意味について信頼できる根拠は提供できない"

当時、この問題を解決すべく、潜在的意味論的インデックスを導入した。これは単語の共起度に基づく特異値分解を用いてテキストを低次元の密なベクトル空間の埋め込みとして扱う手法である。これは、密な表現を学習し近傍を探索する手法は、転置インデックスを用いた離散検索と対比して連続検索と呼んでいる。 この手法では、テキスト表現を学習するモデルをリランキングに使用することで情報検索へ適用している。

ただしこれはあくまでリランキングに適用しただけで、End-to-Endの検索にテキスト表現を学習したモデルを適用したわけではない。

nogawanogawa commented 2 years ago

目的

標準的なANN検索を用いて、連続検索を目的として学習されたモデルを使用して離散検索システムよりも高い性能を出すこと。

アプローチ

nogawanogawa commented 2 years ago

Dual Encoders

構成としては、アイテムに関してはオフラインでインデクスが作成(candidate encoder)され、推論時にはオンラインでエンコードされ(query encoder)近傍のアイテムが検索される。 この時のエンコーダは学習された単語embeddingの平均を質問のエンコーダとして使用する。マルチ学習ではタスク固有の損失を計算し、加重平均を撮って全体の損失を算出する。

ロス関数:インバッチサンプルソフトマックス

通常表現学習に関する先行研究では、ペアワイズの類似度に着目する。 複数のペアを使用して、マトリクスを作成する。このとき、対角線要素を正例、それ以外をすべて負例として扱い、各行についてソフトマックス損失項を計算し、その平均値をロスとして応答する。

nogawanogawa commented 2 years ago

評価

実験設定

MAP@Kで評価を行う。

image

dataset

baseline

結果

image