nogawanogawa / paper_memo

4 stars 0 forks source link

RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval #104

Closed nogawanogawa closed 5 months ago

nogawanogawa commented 6 months ago

論文URL

https://arxiv.org/abs/2401.18059

著者

Parth Sarthi, Salman Abdullah, Aditi Tuli, Shubh Khanna, Anna Goldie, Christopher D. Manning

会議

ICLR 2024

背景

大規模な言語モデルであっても、特定のタスクに対するドメイン固有の知識が不足するが、fine tuningで世界に追従するのは難しい。 こうした状況に対して、LAGが採用されることが非常に多い。検索補強(retrieval augmentation)は有効ではあるが、既存手法は短い連続したチャンクを数個検索するのが現状である。

「シンデレラはどうやってハッピーエンドにたどり着いたのか」という質問にこうした手法では検索された数個のチャンクの情報では不十分であり、対応することができない。

目的

異なるレベルの質問に効果的かつ効率的に答えることができる検索手法の開発

アプローチ

image

ひとことメモ

nogawanogawa commented 6 months ago

背景

大規模な言語モデルであっても、特定のタスクに対するドメイン固有の知識が不足するが、fine tuningで世界に追従するのは難しい。 こうした状況に対して、LAGが採用されることが非常に多い。検索補強(retrieval augmentation)は有効ではあるが、既存手法は短い連続したチャンクを数個検索するのが現状である。

「シンデレラはどうやってハッピーエンドにたどり着いたのか」という質問にこうした手法では検索された数個のチャンクの情報では不十分であり、対応することができない。

nogawanogawa commented 6 months ago

目的

異なるレベルの質問に効果的かつ効率的に答えることができる検索手法の開発

アプローチ

nogawanogawa commented 6 months ago

RAPTOR

image
  1. ドキュメントを長さ100のチャンクに分割、埋め込み
    • 中途半端に切れる部分は次のチャンクに移動させるようにする
  2. 類似のチャンクをグループ化するためにクラスタリング
    • ガウス混合モデルを前提にしたクラスタリング手法を使用
  3. クラスタごとにテキストを要約
  4. 要約されたテキストを埋め込み(クラスタリングができなくなるまで2〜4を繰り返す)

検索

2つの検索手法を持っている

image
nogawanogawa commented 6 months ago

性能評価

RAPTORの有無に関する比較

image image image

他手法と比較

(おおよそ)先行研究の手法より評価指標は高くなっている事を確認

image image image

Tree structureの評価

階層型検索が有用か調べた。Layer2から始めたほうがQuality精度が良くなった。

image