Closed xiaoxunlong closed 8 months ago
模型推理
Chinese-LLaMA-2 (7B/13B)
Linux
ceval的zero-shot评测,原生的llama-2-7b比本仓库的中文llama-2-7b效果要好,请问作者有使用原生的llama-2-7b跑过ceval评测吗?结果是怎么样的呢?如果也是同样的的情况,请问原因可能是什么呢?
zero-shot 中文 llama-2-7b 的运行指令 python eval.py \ --model_path hf_models/hfl/chinese-llama-2-7b/ \ --cot False \ --few_shot False \ --with_prompt False \ --constrained_decoding True \ --temperature 0.2 \ --n_times 1 \ --ntrain 5 \ --do_save_csv False \ --do_test False \ --output_dir chinese-llama-2-7b_results zero-shot 原生 llama-2-7b 的运行指令 python eval.py \ --model_path llama_model/llama-2-7b-hf/ \ --cot False \ --few_shot False \ --with_prompt False \ --constrained_decoding True \ --temperature 0.2 \ --n_times 1 \ --ntrain 5 \ --do_save_csv False \ --do_test False \ --output_dir llama-2-7b_results
peft 0.8.2 sentencepiece 0.2.0 torch 1.13.1 torchaudio 0.13.1 torchvision 0.14.1 transformers 4.37.2
zero-shot 中文 llama-2-7b 结果 "All": { "score": 0.28083209509658247, "num": 1346, "correct": 378.0 } zero-shot 原生 llama-2-7b 结果 "All": { "score": 0.2964338781575037, "num": 1346, "correct": 399.0 }
经过预训练之后,不同数据集呈现出不一样的趋势,ceval降也是正常的。 进一步经过SFT之后,效果就有明显差别了。感兴趣可以自己分析分析原因。 我们在mixtral上的尝试也是类似的现象。
提交前必须检查以下项目
问题类型
模型推理
基础模型
Chinese-LLaMA-2 (7B/13B)
操作系统
Linux
详细描述问题
ceval的zero-shot评测,原生的llama-2-7b比本仓库的中文llama-2-7b效果要好,请问作者有使用原生的llama-2-7b跑过ceval评测吗?结果是怎么样的呢?如果也是同样的的情况,请问原因可能是什么呢?
依赖情况(代码类问题务必提供)
运行日志或截图