llm-jp / scripts

Apache License 2.0
1 stars 1 forks source link

Add scripts for g-leaderboard (GENIAC official evaluation) #31

Closed hkiyomaru closed 2 months ago

hkiyomaru commented 2 months ago

What

Add scripts for evaluating LLMs using g-leaderboard (GENIAC official evaluation).

Related issues

29

hkiyomaru commented 2 months ago

GENIAC の評価をローカルで回すためのスクリプトです.

@Taka008 児玉さんは自分で回せた方が都合が良いと思うので,動作確認をお願いしたいです.Azure OpenAI API の endpoint と key は @cr-liu さんに聞いてください.

@YumaTsuta llm-jp-eval-v1.3.1 のスクリプトを参考に作成しました.レビューお願いします.

YumaTsuta commented 2 months ago

install.sh は wrapper欲しくなりますね。時間がった時にでもやりますか

Taka008 commented 2 months ago

動作確認は @YumaTsuta さんの修正が反映されたあとにこちらでやります

hkiyomaru commented 2 months ago

@Taka008 修正終わったので動作確認お願いします.(手元では動くことを確認済みです)

YumaTsuta commented 2 months ago

@hkiyomaru gpu関連の module loadが不要なことに気がついて、評価スクリプト (v1.4.0)の方を修正しています(動作確認済み)。同様に適用しても問題ないですが、その場合はお手数おかけします。

hkiyomaru commented 2 months ago

llm-jp-eval v1.4.0 の変更を反映しました.動作確認済みです.

Taka008 commented 2 months ago

v3 シリーズ用の resources/config_base.yaml の見本はありますか?

hkiyomaru commented 2 months ago

v3 シリーズ用の resources/config_base.yaml の見本はありますか?

今のものが v3 シリーズ用のつもりです.モデルサイズに関しては 172B 想定で,MT Bench 評価時に 8GPUs を確保するのをデフォルトにしています.

Taka008 commented 2 months ago

1.7B v3 で試しに動かしてみましたが,空の回答が結構あったのでなにか間違えたのかと思っていました こんなものなんですか?

hkiyomaru commented 2 months ago

空の回答,そんなにありますか?Jaster 4-shot は空回答 0 件ですし,問題なさそうに見えます.

image
Taka008 commented 2 months ago

MT-bench を見てました

image
hkiyomaru commented 2 months ago

172B-instruct (55k steps) は無回答問題はありませんでした.

image

https://wandb.ai/nii-geniac/llm-leaderboard/runs/8xrr9dqg

いきなり EOS を吐いているとは考えづらいので,会話の separator (###) を吐いて出力が truncate されているとかでしょうか.いずれにそても,ベースモデルに指示追従能力がないことに由来する問題な気がします.

Taka008 commented 2 months ago

チューニング済みの 13B v3 exp4 を試しに回してみましたが,確かに問題なさそうです https://wandb.ai/llm-jp-eval/test/runs/wouna8fd

Taka008 commented 2 months ago

@hkiyomaru mdx, sakura の両環境で動作確認が取れました.approve しておきました

hkiyomaru commented 2 months ago

マージします