End-to-End Retrieval in Continuous Space

nogawanogawa commented 2 years ago

論文URL

https://arxiv.org/abs/1811.08008

著者

Daniel Gillick, Alessandro Presta, Gaurav Singh Tomar

会議

多分なし

背景

従来の転置インデックスを使用した離散検索とは異なり、表現学習を用いた連続空間での検索は様々な利点が期待されている。しかしながら、連続検索はこれまで主に離散検索の結果のリランキング用途として使用され、End-to-Endで検索にテキスト表現を学習したモデルは使用されてこなかった。

目的

標準的なANN検索を用いた連続検索による検索システムの構築

アプローチ

Dual Encoder
- アイテムはオフラインで、クエリはオンラインでそれぞれEncode
- これらをANNによって検索を行う

nogawanogawa commented 2 years ago

背景

今から約30年前に、現在でも広く使用されている標準的な検索システムに関する欠点が指摘されている。 "問題なのは、ユーザーは概念的な内容に基づいて検索を行いたいが、個々の単語からでは文書の概念的なトピックや意味について信頼できる根拠は提供できない"

当時、この問題を解決すべく、潜在的意味論的インデックスを導入した。これは単語の共起度に基づく特異値分解を用いてテキストを低次元の密なベクトル空間の埋め込みとして扱う手法である。これは、密な表現を学習し近傍を探索する手法は、転置インデックスを用いた離散検索と対比して連続検索と呼んでいる。この手法では、テキスト表現を学習するモデルをリランキングに使用することで情報検索へ適用している。

ただしこれはあくまでリランキングに適用しただけで、End-to-Endの検索にテキスト表現を学習したモデルを適用したわけではない。

nogawanogawa commented 2 years ago

目的

標準的なANN検索を用いて、連続検索を目的として学習されたモデルを使用して離散検索システムよりも高い性能を出すこと。

アプローチ

Dual Encoder
- アイテム・クエリともにエンコーダによってembeddingに変換
- ロス関数にインバッチサンプルソフトマックス
- cos類似度による近傍探索

nogawanogawa commented 2 years ago

Dual Encoders

エンコーダ
- アイテムXを入力とし、低次元のベクトルを出力する関数f(X)
類似性関数
- 類似性関数sim(X1, X2)は同じ次元の2つのエンコードを入力とし、[0, 1]の類似性の値を出力する.ANNを可能にするために、ここではcos類似度を用いる
デュアルエンコーダ
- g(X1, X2) = sim(f1(X1), f2(X2))という形式を持つもの
- （イマイチピンと来てない→）追加で、アフィン変換(平行移動と線形変換を組み合わせた変形)を適用し、学習中にロジットとして扱えるように類似度をスケーリング

構成としては、アイテムに関してはオフラインでインデクスが作成（candidate encoder）され、推論時にはオンラインでエンコードされ（query encoder）近傍のアイテムが検索される。この時のエンコーダは学習された単語embeddingの平均を質問のエンコーダとして使用する。マルチ学習ではタスク固有の損失を計算し、加重平均を撮って全体の損失を算出する。

ロス関数：インバッチサンプルソフトマックス

通常表現学習に関する先行研究では、ペアワイズの類似度に着目する。複数のペアを使用して、マトリクスを作成する。このとき、対角線要素を正例、それ以外をすべて負例として扱い、各行についてソフトマックス損失項を計算し、その平均値をロスとして応答する。

nogawanogawa commented 2 years ago

評価

実験設定

MAP＠Kで評価を行う。

dataset

Quora question pairs dataset
- pos/negあり
AskUbuntu dataset
- posのみ
Paralex dataset

baseline

離散検索
- TFIDF
- BM25
連続検索
- word2vec
- word2vecをIDFで加重平均

結果

idfで重み付けしたembeddingは多少精度が良さそうではあるが、BM25と同程度
各データセットでの最高値はすべてDual Encoder

nogawanogawa / paper_memo