Open AkihikoWatanabe opened 8 months ago
https://huggingface.co/vectara/hallucination_evaluation_model
https://github.com/vectara/hallucination-leaderboard
1000個の短いドキュメントに対して、事実情報のみを用いて要約を生成させ、要約結果と原文書のFactual consistencyを別に訓練したモデルで測定して評価してリーダーボードを作成している。
Claude2よりLLaMA2の方が性能が良いのが面白いし、Palmの性能があまり良くない。
元ツイート: https://x.com/ashversex/status/1724240030170808392?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
https://huggingface.co/vectara/hallucination_evaluation_model
https://github.com/vectara/hallucination-leaderboard