Closed hkiyomaru closed 2 months ago
GENIAC の評価をローカルで回すためのスクリプトです.
@Taka008 児玉さんは自分で回せた方が都合が良いと思うので,動作確認をお願いしたいです.Azure OpenAI API の endpoint と key は @cr-liu さんに聞いてください.
@YumaTsuta llm-jp-eval-v1.3.1 のスクリプトを参考に作成しました.レビューお願いします.
install.sh
は wrapper欲しくなりますね。時間がった時にでもやりますか
動作確認は @YumaTsuta さんの修正が反映されたあとにこちらでやります
@Taka008 修正終わったので動作確認お願いします.(手元では動くことを確認済みです)
@hkiyomaru gpu関連の module loadが不要なことに気がついて、評価スクリプト (v1.4.0)の方を修正しています(動作確認済み)。同様に適用しても問題ないですが、その場合はお手数おかけします。
llm-jp-eval v1.4.0 の変更を反映しました.動作確認済みです.
v3 シリーズ用の resources/config_base.yaml
の見本はありますか?
v3 シリーズ用の resources/config_base.yaml の見本はありますか?
今のものが v3 シリーズ用のつもりです.モデルサイズに関しては 172B 想定で,MT Bench 評価時に 8GPUs を確保するのをデフォルトにしています.
1.7B v3 で試しに動かしてみましたが,空の回答が結構あったのでなにか間違えたのかと思っていました こんなものなんですか?
空の回答,そんなにありますか?Jaster 4-shot は空回答 0 件ですし,問題なさそうに見えます.
MT-bench を見てました
172B-instruct (55k steps) は無回答問題はありませんでした.
https://wandb.ai/nii-geniac/llm-leaderboard/runs/8xrr9dqg
いきなり EOS を吐いているとは考えづらいので,会話の separator (###) を吐いて出力が truncate されているとかでしょうか.いずれにそても,ベースモデルに指示追従能力がないことに由来する問題な気がします.
チューニング済みの 13B v3 exp4 を試しに回してみましたが,確かに問題なさそうです https://wandb.ai/llm-jp-eval/test/runs/wouna8fd
@hkiyomaru mdx, sakura の両環境で動作確認が取れました.approve しておきました
マージします
What
Add scripts for evaluating LLMs using g-leaderboard (GENIAC official evaluation).
Related issues
29