Open AkihikoWatanabe opened 11 months ago
RAG pipeline (retrieval + generation)を評価するライブラリRagasについて紹介されている。
評価に活用される指標は下記で、背後にLLMを活用しているため、大半の指標はラベルデータ不要。ただし、context_recallを測定する場合はreference answerが必要。 Ragasスコアとしてどのメトリックを利用するかは選択することができ、選択したメトリックのharmonic meanでスコアが算出される。
各種メトリックの内部的な処理は下記:
また、LangSmithを利用して実験を管理する方法についても記述されている。
https://blog.langchain.dev/evaluating-rag-pipelines-with-ragas-langsmith/