llm-jp / scripts

Apache License 2.0

1 stars 1 forks source link

Closed hkiyomaru closed 2 months ago

hkiyomaru commented 2 months ago

What

Add scripts for evaluating LLMs using g-leaderboard (GENIAC official evaluation).

hkiyomaru commented 2 months ago

GENIAC の評価をローカルで回すためのスクリプトです．

@Taka008 児玉さんは自分で回せた方が都合が良いと思うので，動作確認をお願いしたいです．Azure OpenAI API の endpoint と key は @cr-liu さんに聞いてください．

@YumaTsuta llm-jp-eval-v1.3.1 のスクリプトを参考に作成しました．レビューお願いします．

YumaTsuta commented 2 months ago

install.sh は wrapper欲しくなりますね。時間がった時にでもやりますか

Taka008 commented 2 months ago

動作確認は @YumaTsuta さんの修正が反映されたあとにこちらでやります

hkiyomaru commented 2 months ago

@Taka008 修正終わったので動作確認お願いします．（手元では動くことを確認済みです）

YumaTsuta commented 2 months ago

@hkiyomaru gpu関連の module loadが不要なことに気がついて、評価スクリプト (v1.4.0)の方を修正しています（動作確認済み）。同様に適用しても問題ないですが、その場合はお手数おかけします。

hkiyomaru commented 2 months ago

llm-jp-eval v1.4.0 の変更を反映しました．動作確認済みです．

Taka008 commented 2 months ago

v3 シリーズ用の resources/config_base.yaml の見本はありますか？

hkiyomaru commented 2 months ago

v3 シリーズ用の resources/config_base.yaml の見本はありますか？

今のものが v3 シリーズ用のつもりです．モデルサイズに関しては 172B 想定で，MT Bench 評価時に 8GPUs を確保するのをデフォルトにしています．

Taka008 commented 2 months ago

1.7B v3 で試しに動かしてみましたが，空の回答が結構あったのでなにか間違えたのかと思っていましたこんなものなんですか？

hkiyomaru commented 2 months ago

空の回答，そんなにありますか？Jaster 4-shot は空回答 0 件ですし，問題なさそうに見えます．

Taka008 commented 2 months ago

MT-bench を見てました

hkiyomaru commented 2 months ago

172B-instruct (55k steps) は無回答問題はありませんでした．

いきなり EOS を吐いているとは考えづらいので，会話の separator (###) を吐いて出力が truncate されているとかでしょうか．いずれにそても，ベースモデルに指示追従能力がないことに由来する問題な気がします．

Taka008 commented 2 months ago

チューニング済みの 13B v3 exp4 を試しに回してみましたが，確かに問題なさそうです https://wandb.ai/llm-jp-eval/test/runs/wouna8fd

Taka008 commented 2 months ago

@hkiyomaru mdx, sakura の両環境で動作確認が取れました．approve しておきました

hkiyomaru commented 2 months ago

マージします