ymcui / Chinese-LLaMA-Alpaca-2

中文LLaMA-2 & Alpaca-2大模型二期项目 + 64K超长上下文模型 (Chinese LLaMA-2 & Alpaca-2 LLMs with 64K long context models)
Apache License 2.0
7k stars 570 forks source link

ceval的zero-shot测评,原生的llama-2-7b比本仓库的中文llama-2-7b效果要好 #533

Closed xiaoxunlong closed 3 months ago

xiaoxunlong commented 4 months ago

提交前必须检查以下项目

问题类型

模型推理

基础模型

Chinese-LLaMA-2 (7B/13B)

操作系统

Linux

详细描述问题

ceval的zero-shot评测,原生的llama-2-7b比本仓库的中文llama-2-7b效果要好,请问作者有使用原生的llama-2-7b跑过ceval评测吗?结果是怎么样的呢?如果也是同样的的情况,请问原因可能是什么呢?

zero-shot 中文 llama-2-7b 的运行指令
python eval.py \
    --model_path hf_models/hfl/chinese-llama-2-7b/ \
    --cot False \
    --few_shot False \
    --with_prompt False \
    --constrained_decoding True \
    --temperature 0.2 \
    --n_times 1 \
    --ntrain 5 \
    --do_save_csv False \
    --do_test False \
    --output_dir chinese-llama-2-7b_results

zero-shot 原生 llama-2-7b 的运行指令
python eval.py \
    --model_path llama_model/llama-2-7b-hf/ \
    --cot False \
    --few_shot False \
    --with_prompt False \
    --constrained_decoding True \
    --temperature 0.2 \
    --n_times 1 \
    --ntrain 5 \
    --do_save_csv False \
    --do_test False \
    --output_dir llama-2-7b_results

依赖情况(代码类问题务必提供)

peft                      0.8.2
sentencepiece             0.2.0
torch                     1.13.1
torchaudio                0.13.1
torchvision               0.14.1
transformers              4.37.2

运行日志或截图

zero-shot 中文 llama-2-7b 结果
"All": {
    "score": 0.28083209509658247,
    "num": 1346,
    "correct": 378.0
  }

zero-shot 原生 llama-2-7b 结果
"All": {
    "score": 0.2964338781575037,
    "num": 1346,
    "correct": 399.0
  }
ymcui commented 4 months ago

经过预训练之后,不同数据集呈现出不一样的趋势,ceval降也是正常的。 进一步经过SFT之后,效果就有明显差别了。感兴趣可以自己分析分析原因。 我们在mixtral上的尝试也是类似的现象。