Closed ohashi3399 closed 4 months ago
ありがとうございます。これは、MT-benchの出力を何回するかといったものになります 1回だと精度が安定しないかもしれないということで何回か回すことがあります
我々の場合は、多くのモデルを回すので、こちらは計算時間の問題上1回としております
ご回答ありがとうございます!
num_choices
がデフォルトで1な理由が納得しました。
現在、num_choices=1
の時のJapanese MT Benchの、codeとmathを除く6カテゴリの平均スコアが5.0を記録しており、
num_choices=4
に変更すると同6カテゴリの平均スコアが6.65まで上がりました。
どちらのスコアを信用すれば良いのか困っています。
上のご回答を踏まえると、num_choices=1
のスコアよりもnum_choices=4
のスコアの方が信頼して良い、という認識であっていますでしょうか。ベンチマーク内でtemperature
やtop_k
の値を変動させているように見受けられたため、±1.0~1.5程度のスコアの変動はつきものなのかな、と考えております。
そうですね、統計的な揺らぎが複数回の方が小さいという観点で信頼できるとは言えるかと思います スコアの変動については、正しくおっしゃる通りです。。
承知しました! ご丁寧に回答いただきありがとうございます。 LLMの評価は非常に難しいチャレンジだと思っております。 ご活躍も拝見しておりますので、これからも応援しております!
本件はクローズいたします。
Could you provide an explanation of
num_choices
inconfig_template.json
? In cases ofnum_choices=1
andnum_choices=4
, benchmark has a huge gap. I guessnum_choices
is something likeaccuracy@5
orMRR@20
in computer vision tasks. I need an official answer.ベンチマークの開発と公開ありがとうございます。
表題の通り、
config_template.json
の中のnum_choices
の変数の役割が知りたいです。 コンピュータービジョン系のタスクで使われるaccuracy@5(予測候補5件のうちに正解が入っていれば正解とする)のような正答の範囲を緩和する指標だと思っているんですが合っていますでしょうか。huggingfaceのmodel_cardの中には、自分たちは
num_choices
を4で評価して他のモデルよりも高性能でした、と書いているモデルもあるのですが、この場合比較するモデルのnum_choices
は固定しないと公平な評価にはならない、という解釈で合っていますでしょうか。こういったベンチマークがあって本当に助かっています。 ありがとうございます。