Closed nogawanogawa closed 3 months ago
RAGのよくあるベンチマークは一般的なドメインにおける質問への回答によって正確性を測定している。 ただし、特に金融・医療・法律などのドメインではこのやり方では評価しきれないことが多い。
異なるドメインのベンチマークを構築することが簡単な方法ではあるものの、データの気密性などの問題もあり品質かつ多様なデータセットを構築することは一般に困難になっている。
人間が採点した内容とおおよそ同等の評価ができている(精度に関する感覚がおおよそ人間と一緒位になってる)
論文URL
https://arxiv.org/abs/2408.01262
著者
Kunlun Zhu, Yifan Luo, Dingling Xu, Ruobing Wang, Shi Yu, Shuo Wang, Yukun Yan, Zhenghao Liu, Xu Han, Zhiyuan Liu, Maosong Sun
会議
?
背景
RAGのよくあるベンチマークは一般的なドメインにおける質問への回答によって正確性を測定している。 ただし、特に金融・医療・法律などのドメインではこのやり方では評価しきれないことが多い。
異なるドメインのベンチマークを構築することが簡単な方法ではあるものの、データの気密性などの問題もあり品質かつ多様なデータセットを構築することは一般に困難になっている。
目的
アプローチ
ひとことメモ