fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

JudgeBench:大規模言語モデルに基づく裁判官を評価するためのベンチマーク #503

Open fulfulggg opened 7 hours ago

fulfulggg commented 7 hours ago

タイトル: JudgeBench:大規模言語モデルに基づく裁判官を評価するためのベンチマーク

リンク: https://arxiv.org/abs/2410.12784

概要:

LLMベースの判定器は、人間の評価に代わるスケーラブルな手段として登場し、モデルの評価、比較、改善にますます利用されています。しかし、LLMベースの判定器自体の信頼性は、ほとんど検証されていません。LLMが進化するにつれて、その応答はより洗練され、評価するためにはより強力な判定器が必要となります。既存のベンチマークは、主に人間の好みに対する判定器の一致性に焦点を当てていますが、クラウドソーシングされた人間の好みが事実上および論理的な正確さの指標として不十分な、より困難なタスクを考慮に入れていないことがよくあります。この問題に対処するため、LLMベースの判定器を客観的に評価するための新しい評価フレームワークを提案します。このフレームワークに基づき、知識、推論、数学、コーディングにわたる難しい応答ペアでLLMベースの判定器を評価するためのベンチマークであるJudgeBenchを提案します。JudgeBenchは、既存の難しいデータセットを、客観的な正確性を反映した選好ラベルを持つ難しい応答ペアに変換するための新しいパイプラインを活用します。プロンプトベースの判定器、ファインチューニングされた判定器、マルチエージェント判定器、報酬モデルのコレクションに対する包括的な評価により、JudgeBenchは従来のベンチマークよりもはるかに大きな課題をもたらし、多くの強力なモデル(GPT-4oなど)はランダムな推測よりもわずかに優れたパフォーマンスを示すに過ぎないことがわかりました。全体的に、JudgeBenchは、ますます高度化するLLMベースの判定器を評価するための信頼できるプラットフォームを提供します。データとコードはhttps://github.com/ScalerLab/JudgeBenchで入手できます。

fulfulggg commented 7 hours ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

fulfulggg commented 7 hours ago

論文要約

論文要約: JudgeBench:大規模言語モデルに基づく裁判官を評価するためのベンチマーク