wandb / llm-leaderboard

Project of llm evaluation to Japanese tasks
67 stars 34 forks source link

What is the parameter of num_choices? #121

Closed ohashi3399 closed 4 months ago

ohashi3399 commented 4 months ago

Could you provide an explanation of num_choices in config_template.json ? In cases of num_choices=1 and num_choices=4, benchmark has a huge gap. I guess num_choices is something like accuracy@5 or MRR@20 in computer vision tasks. I need an official answer.

ベンチマークの開発と公開ありがとうございます。

表題の通り、config_template.jsonの中のnum_choicesの変数の役割が知りたいです。 コンピュータービジョン系のタスクで使われるaccuracy@5(予測候補5件のうちに正解が入っていれば正解とする)のような正答の範囲を緩和する指標だと思っているんですが合っていますでしょうか。

huggingfaceのmodel_cardの中には、自分たちはnum_choicesを4で評価して他のモデルよりも高性能でした、と書いているモデルもあるのですが、この場合比較するモデルのnum_choicesは固定しないと公平な評価にはならない、という解釈で合っていますでしょうか。

こういったベンチマークがあって本当に助かっています。 ありがとうございます。

olachinkei commented 4 months ago

ありがとうございます。これは、MT-benchの出力を何回するかといったものになります 1回だと精度が安定しないかもしれないということで何回か回すことがあります

我々の場合は、多くのモデルを回すので、こちらは計算時間の問題上1回としております

ohashi3399 commented 4 months ago

ご回答ありがとうございます! num_choicesがデフォルトで1な理由が納得しました。

現在、num_choices=1の時のJapanese MT Benchの、codeとmathを除く6カテゴリの平均スコアが5.0を記録しており、 num_choices=4に変更すると同6カテゴリの平均スコアが6.65まで上がりました。 どちらのスコアを信用すれば良いのか困っています。

上のご回答を踏まえると、num_choices=1のスコアよりもnum_choices=4のスコアの方が信頼して良い、という認識であっていますでしょうか。ベンチマーク内でtemperaturetop_kの値を変動させているように見受けられたため、±1.0~1.5程度のスコアの変動はつきものなのかな、と考えております。

olachinkei commented 4 months ago

そうですね、統計的な揺らぎが複数回の方が小さいという観点で信頼できるとは言えるかと思います スコアの変動については、正しくおっしゃる通りです。。

ohashi3399 commented 4 months ago

承知しました! ご丁寧に回答いただきありがとうございます。 LLMの評価は非常に難しいチャレンジだと思っております。 ご活躍も拝見しておりますので、これからも応援しております!

本件はクローズいたします。