nogawanogawa / paper_memo

4 stars 0 forks source link

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework #118

Closed nogawanogawa closed 3 months ago

nogawanogawa commented 3 months ago

論文URL

https://arxiv.org/abs/2408.01262

著者

Kunlun Zhu, Yifan Luo, Dingling Xu, Ruobing Wang, Shi Yu, Shuo Wang, Yukun Yan, Zhenghao Liu, Xu Han, Zhiyuan Liu, Maosong Sun

会議

?

背景

RAGのよくあるベンチマークは一般的なドメインにおける質問への回答によって正確性を測定している。 ただし、特に金融・医療・法律などのドメインではこのやり方では評価しきれないことが多い。

異なるドメインのベンチマークを構築することが簡単な方法ではあるものの、データの気密性などの問題もあり品質かつ多様なデータセットを構築することは一般に困難になっている。

目的

アプローチ

image
  1. ドキュメントセットの中から少数の文書をサンプリングして、テキスト構造化のスキーマを推定する(フィールド間の対応関係とかが異なってたりする)
  2. 複数のスキーマを統合してconfigを作成する
  3. configに基づいて文書内容に基づいて情報抽出
  4. 抽出した情報に則って文書を再構成
  5. 問題、参照、回答の作成
    • キーポイントを抽出し、重要な問題になるようにする

ひとことメモ

nogawanogawa commented 3 months ago

背景

RAGのよくあるベンチマークは一般的なドメインにおける質問への回答によって正確性を測定している。 ただし、特に金融・医療・法律などのドメインではこのやり方では評価しきれないことが多い。

異なるドメインのベンチマークを構築することが簡単な方法ではあるものの、データの気密性などの問題もあり品質かつ多様なデータセットを構築することは一般に困難になっている。

nogawanogawa commented 3 months ago

目的

アプローチ

nogawanogawa commented 3 months ago

RAGEval

RAGのQAデータセットの難しいところ

アプローチ

image
  1. ドキュメントセットの中から少数の文書をサンプリングして、テキスト構造化のスキーマを推定する(フィールド間の対応関係とかが異なってたりする)
  2. 複数のスキーマを統合してconfigを作成する
  3. configに基づいて文書内容に基づいて情報抽出
  4. 抽出した情報に則って文書を再構成
  5. 問題、参照、回答の作成
    • キーポイントを抽出し、重要な問題になるようにする

評価基準

nogawanogawa commented 3 months ago

評価

image

人間が採点した内容とおおよそ同等の評価ができている(精度に関する感覚がおおよそ人間と一緒位になってる)