Closed nogawanogawa closed 5 months ago
これまで文書検索はweb検索を始め様々な箇所で使用されてきた。 最近従来の疎・密な検索に変わるものとして、generative retrievalが有望視されている。 具体的には、各文書にDタイトルやngram, 合成クエリなど様々ではあるがdocidの識別子を割り当て、LLMによってdocid自体を生成する。
生成的検索では関連するdocidを正確に生成する必要がある。 ただし、生成中に関連するトークンが誤って刈り込まれ(生成されず)、docidを正しく生成できないことがある。
生成的検索時のデコードではこのように誤ったDocIDを生成してしまう問題がある。
文書を簡潔に要約し、他のドキュメント特別できるように設定された用語τの集合Τ(D)を用意しドキュメントに割り当てる。生成時には、与えられたクエリにからこれらの用語集合を生成し、docidを引き当てる。
用語の質を担保するために事前学習を行う。 各文書内に含まれる用語のうち、最もweightの高い用語のtopNをdocidとする。
このweightは事前にドキュメントとクエリのデータセットを用意しておいて、それらから正解ドキュメントをクエリで識別しやすいように学習する。(BERT)
ここまでで用語のセットはつくられた。 この用語セットの中でビームサーチを行い用語セットの中から用語を選んでdocidとする
MRR, Recallの多くにおいて高い性能を達成することが確認できた
自然言語シーケンスベースのDocID、例えばタイトルを使ったGENRE、URLを使ったUltron、n-gramを使ったSEAL/MIN- DERと比較した場合、TSGenはより高いRecallを達成している
とはいえ、MS300Kでは、スパース/デンス検索ベースラインがR@100の点でTSGenを上回る可能性がある。これは依然として誤った刈り込みが行われてしまっているものと思われる。
追加
あくまで既存の生成的検索と比べるとメモリもレイテンシも遜色はなさそう
論文URL
https://arxiv.org/abs/2305.13859
著者
Peitian Zhang, Zheng Liu, Yujia Zhou, Zhicheng Dou, Fangchao Liu, Zhao Cao
会議
SIGIR ’24
背景
これまで文書検索はweb検索を始め様々な箇所で使用されてきた。 最近従来の疎・密な検索に変わるものとして、generative retrievalが有望視されている。 具体的には、各文書にDタイトルやngram, 合成クエリなど様々ではあるがdocidの識別子を割り当て、LLMによってdocid自体を生成する。
生成的検索では関連するdocidを正確に生成する必要がある。 ただし、生成中に関連するトークンが誤って刈り込まれ(生成されず)、docidを正しく生成できないことがある。
生成的検索時のデコードではこのように誤ったDocIDを生成してしまう問題がある。
目的
アプローチ
ひとことメモ
これ別にLLMじゃなくてもよくない?と思わなくもない