JudgeBench：大規模言語モデルに基づく裁判官を評価するためのベンチマーク

fulfulggg commented 7 hours ago

タイトル: JudgeBench：大規模言語モデルに基づく裁判官を評価するためのベンチマーク

リンク: https://arxiv.org/abs/2410.12784

概要:

LLMベースの判定器は、人間の評価に代わるスケーラブルな手段として登場し、モデルの評価、比較、改善にますます利用されています。しかし、LLMベースの判定器自体の信頼性は、ほとんど検証されていません。LLMが進化するにつれて、その応答はより洗練され、評価するためにはより強力な判定器が必要となります。既存のベンチマークは、主に人間の好みに対する判定器の一致性に焦点を当てていますが、クラウドソーシングされた人間の好みが事実上および論理的な正確さの指標として不十分な、より困難なタスクを考慮に入れていないことがよくあります。この問題に対処するため、LLMベースの判定器を客観的に評価するための新しい評価フレームワークを提案します。このフレームワークに基づき、知識、推論、数学、コーディングにわたる難しい応答ペアでLLMベースの判定器を評価するためのベンチマークであるJudgeBenchを提案します。JudgeBenchは、既存の難しいデータセットを、客観的な正確性を反映した選好ラベルを持つ難しい応答ペアに変換するための新しいパイプラインを活用します。プロンプトベースの判定器、ファインチューニングされた判定器、マルチエージェント判定器、報酬モデルのコレクションに対する包括的な評価により、JudgeBenchは従来のベンチマークよりもはるかに大きな課題をもたらし、多くの強力なモデル（GPT-4oなど）はランダムな推測よりもわずかに優れたパフォーマンスを示すに過ぎないことがわかりました。全体的に、JudgeBenchは、ますます高度化するLLMベースの判定器を評価するための信頼できるプラットフォームを提供します。データとコードはhttps://github.com/ScalerLab/JudgeBenchで入手できます。

fulfulggg commented 7 hours ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

benchmark
llm
dataset

fulfulggg commented 7 hours ago

論文要約

論文要約: JudgeBench：大規模言語モデルに基づく裁判官を評価するためのベンチマーク

背景: 大規模言語モデル（LLM）の性能評価において、LLM自身を判定者として用いる手法が注目されているが、その判定の信頼性評価は十分ではない。
問題点: 従来の評価基準は、人間の好みに基づく判定の一致性に焦点を当てており、客観的な正しさや複雑なタスクにおける評価が不十分である。
提案: LLMベースの判定器を客観的に評価するための新たなフレームワークとベンチマーク「JudgeBench」を提案。
JudgeBenchの特徴:
- 知識、推論、数学、コーディングといった複雑なタスクを含む。
- 客観的な正誤に基づく判定データを用いる。
評価結果:
- JudgeBenchは従来のベンチマークよりもはるかに難しい課題であることが判明。
- GPT-4o等の高性能モデルでも、ランダムな推測をわずかに上回る程度の性能にとどまった。
結論: JudgeBenchは、今後高度化するLLMベースの判定器を評価するための信頼性の高い基盤となる。

fulfulggg / Information-gathering