Generative Retrieval via Term Set Generation

nogawanogawa commented 5 months ago

論文URL

https://arxiv.org/abs/2305.13859

著者

Peitian Zhang, Zheng Liu, Yujia Zhou, Zhicheng Dou, Fangchao Liu, Zhao Cao

会議

SIGIR ’24

背景

これまで文書検索はweb検索を始め様々な箇所で使用されてきた。最近従来の疎・密な検索に変わるものとして、generative retrievalが有望視されている。具体的には、各文書にDタイトルやngram, 合成クエリなど様々ではあるがdocidの識別子を割り当て、LLMによってdocid自体を生成する。

生成的検索では関連するdocidを正確に生成する必要がある。ただし、生成中に関連するトークンが誤って刈り込まれ（生成されず）、docidを正しく生成できないことがある。

生成的検索時のデコードではこのように誤ったDocIDを生成してしまう問題がある。

目的

生成的検索におけるハルシネーションによる検索の失敗の改善

アプローチ

TSGen
- DocIDのシーケンスではなくsetをIDとして用い、順番を無視する

ひとことメモ

これ別にLLMじゃなくてもよくない？と思わなくもない

nogawanogawa commented 5 months ago

背景

これまで文書検索はweb検索を始め様々な箇所で使用されてきた。最近従来の疎・密な検索に変わるものとして、generative retrievalが有望視されている。具体的には、各文書にDタイトルやngram, 合成クエリなど様々ではあるがdocidの識別子を割り当て、LLMによってdocid自体を生成する。

生成的検索では関連するdocidを正確に生成する必要がある。ただし、生成中に関連するトークンが誤って刈り込まれ（生成されず）、docidを正しく生成できないことがある。

生成的検索時のデコードではこのように誤ったDocIDを生成してしまう問題がある。

nogawanogawa commented 5 months ago

目的

生成的検索におけるハルシネーションによる検索の失敗の改善

アプローチ

TSGen
- DocIDのシーケンスではなくsetをIDとして用い、順番を無視する

nogawanogawa commented 5 months ago

TSGen

文書を簡潔に要約し、他のドキュメント特別できるように設定された用語τの集合Τ（D）を用意しドキュメントに割り当てる。生成時には、与えられたクエリにからこれらの用語集合を生成し、docidを引き当てる。

用語集合の質

用語の質を担保するために事前学習を行う。各文書内に含まれる用語のうち、最もweightの高い用語のtopNをdocidとする。

このweightは事前にドキュメントとクエリのデータセットを用意しておいて、それらから正解ドキュメントをクエリで識別しやすいように学習する。（BERT）

順列不変複合

ここまでで用語のセットはつくられた。この用語セットの中でビームサーチを行い用語セットの中から用語を選んでdocidとする

nogawanogawa commented 5 months ago

評価

MRR, Recallの多くにおいて高い性能を達成することが確認できた

自然言語シーケンスベースのDocID、例えばタイトルを使ったGENRE、URLを使ったUltron、n-gramを使ったSEAL/MIN- DERと比較した場合、TSGenはより高いRecallを達成している

とはいえ、MS300Kでは、スパース／デンス検索ベースラインがR@100の点でTSGenを上回る可能性がある。これは依然として誤った刈り込みが行われてしまっているものと思われる。

とはいえ他の生成的検索よりは良さそう

nogawanogawa commented 5 months ago

追加

あくまで既存の生成的検索と比べるとメモリもレイテンシも遜色はなさそう

nogawanogawa / paper_memo