modelscope / evalscope

A streamlined and customizable framework for efficient large model evaluation and performance benchmarking
https://evalscope.readthedocs.io/en/latest/
Apache License 2.0
194 stars 25 forks source link

评估base模型出错 #156

Open yawzhe opened 1 day ago

yawzhe commented 1 day ago
  1. 首先我想要评估qwen2.5-3B base模型
  2. base模型的模板是否直接填 qwen就行了 还是说需要 generation
  3. 本地模型加载已下载 4.不联网 如果我需要评估本地cmmLu ceavl mmlu 数据集已下载,mmlu-test下的csv文件 5.base模型评估需要few_shot, 这里面需要设置吗?可以设置吗?不能设置,我该怎么添加, 6.CUDA VISIBLE DEVIE=7 python3 -m evalscope,run.py model ./models/qwen2.5-3B -template-type qwen --datasets cmmlu

    目前运行这个代码,发现一直卡顿在 Device:cuda 这个停顿很长时间。后连接超时不清楚什么原因。

yawzhe commented 1 day ago

54e111c5d54201a4ea22576d2493e96

slin000111 commented 1 day ago
  1. 已下载的本地数据集。
    python evalscope/run.py \
    --model /path/to/ZhipuAI/chatglm3-6b \
    --template-type chatglm3 \
    --datasets arc \
    --dataset-hub Local \
    --dataset-args '{"arc": {"local_path": "/path/to/workdir/data/arc"}}' \
    --limit 10

    文档链接,https://evalscope.readthedocs.io/zh-cn/latest/user_guides/offline_evaluation.html

  2. few_shot
    --dataset-args '{"ceval": {"few_shot_num": 0, "few_shot_random": false}}'
  3. 模板 base模型一般用default-generation,chat或instruct模型用qwen这种。 文档链接,https://evalscope.readthedocs.io/zh-cn/latest/get_started/basic_usage.html