RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

nogawanogawa commented 3 months ago

論文URL

著者

Kunlun Zhu, Yifan Luo, Dingling Xu, Ruobing Wang, Shi Yu, Shuo Wang, Yukun Yan, Zhenghao Liu, Xu Han, Zhiyuan Liu, Maosong Sun

会議

?

背景

RAGのよくあるベンチマークは一般的なドメインにおける質問への回答によって正確性を測定している。ただし、特に金融・医療・法律などのドメインではこのやり方では評価しきれないことが多い。

異なるドメインのベンチマークを構築することが簡単な方法ではあるものの、データの気密性などの問題もあり品質かつ多様なデータセットを構築することは一般に困難になっている。

目的

ドメイン個別に対応できるベンチマークフレームワークを作る

アプローチ

RAGEval
- ドメインにおけるシナリオ固有のRAG評価ケースを自動的に生成するように設計された汎用フレームワーク

ドキュメントセットの中から少数の文書をサンプリングして、テキスト構造化のスキーマを推定する（フィールド間の対応関係とかが異なってたりする）
複数のスキーマを統合してconfigを作成する
configに基づいて文書内容に基づいて情報抽出
抽出した情報に則って文書を再構成
問題、参照、回答の作成
- キーポイントを抽出し、重要な問題になるようにする

ひとことメモ

nogawanogawa commented 3 months ago

背景

RAGのよくあるベンチマークは一般的なドメインにおける質問への回答によって正確性を測定している。ただし、特に金融・医療・法律などのドメインではこのやり方では評価しきれないことが多い。

異なるドメインのベンチマークを構築することが簡単な方法ではあるものの、データの気密性などの問題もあり品質かつ多様なデータセットを構築することは一般に困難になっている。

nogawanogawa commented 3 months ago

目的

ドメイン個別に対応できるベンチマークフレームワークを作る

アプローチ

RAGEval
- ドメインにおけるシナリオ固有のRAG評価ケースを自動的に生成するように設計された汎用フレームワーク

nogawanogawa commented 3 months ago

RAGEval

RAGのQAデータセットの難しいところ

文書自体の専門性が高い
- ドキュメントの収集とそのアノテーション自体に通常よりコストがかかる
QAを作ろうとすると問題が詳細になりやすい
- そもそも回答する難易度が高いものになりやすい

アプローチ

ドキュメントセットの中から少数の文書をサンプリングして、テキスト構造化のスキーマを推定する（フィールド間の対応関係とかが異なってたりする）
複数のスキーマを統合してconfigを作成する
configに基づいて文書内容に基づいて情報抽出
抽出した情報に則って文書を再構成
問題、参照、回答の作成
- キーポイントを抽出し、重要な問題になるようにする

評価基準

Retrieval Metrics
- Recall
- Effective Information Rate (EIR).
Generation Metrics
- Completeness
- Hallucination
- Irrelevancy

nogawanogawa commented 3 months ago

評価

人間が採点した内容とおおよそ同等の評価ができている（精度に関する感覚がおおよそ人間と一緒位になってる）

nogawanogawa / paper_memo