Closed nogawanogawa closed 2 years ago
情報検索ではユーザーのクエリに対して、関連する文書についてランク付けされたリストを応答する。 このとき、転置インデックスや最近傍探索によるアプローチが主流になっている。
この研究では、こうした距離に基づいて最も関連する文書を見つけるのではなく、クエリに対して直接文書をマッピングする代替アーキテクチャを提案する。
既存手法のDE(Dual Encoder)での検索を上段、DSIによる検索を下段に示している。 上段では、Encode時に文書とクエリを共通のベクトル空間にマッピングし、検索時のクエリのベクトルを用いてMIPS(最大内積探索)を行うことで検索を可能にしている。
DSIではSeq2Seqのモデルを使用して、クエリから直接Docidを生成する。 復号時にビームサーチを組み込んだ文書のランク付けリストを応答する。
doc idをどのようにして表現するかもポイントになる。
ここの研究ではいくつかdoc idの表現方法を検討しているが、中でもSemantically Structured Identifiersがある。 これは、文書の階層化クラスタリングによって、似た特徴の文書を同じクラスタに分類される。
この研究では、このdoc idの表現と、doc token -> doc idのseq2seqを同時に解くマルチタスク学習を採用している。
DEよりは良さそう。
インデックスのみを行い、検索タスクを行われていないケースについての評価。 少なくともBM25やDEよりは良い値を出している。
論文URL
https://arxiv.org/abs/2202.06991
著者
Yi Tay Vinh Q. Tran Mostafa Dehghani Jianmo Ni Dara Bahri, Harsh Mehta Zhen Qin Kai Hui Zhe Zhao Jai Gupta Tal Schuster, William W. Cohen Donald Metzler
会議
(arxiv見る限りはまだ提出されて無さそう)
背景
情報検索ではユーザーのクエリに対して、関連する文書についてランク付けされたリストを応答する。 このとき、転置インデックスや最近傍探索によるアプローチが主流になっている。
目的
クエリに対して直接文書をマッピングする新しい代替アーキテクチャの提案
アプローチ