Closed DaozeZhang closed 5 days ago
template: fewshot
template: fewshot
非常感谢您!
我想再确认一下,所以如果llamafactory-cli train
就是传入chatglm3或者glm4,如果llamafactory-cli eval
就是传入fewshot,如果llamafactory-cli export
仍保持传入chatglm3或glm4。是这样吗?
只有 eval 传入的是 fewshot,其他依旧保持 readme 的说法
只有 eval 传入的是 fewshot,其他依旧保持 readme 的说法
非常感谢您!我按您说的用glm-4-9b在mmlu上eval,效果与公开结果基本一致。 但我chatglm3-6b在mmlu上eval时仍显著低于公开结果。命令如下:
CUDA_VISIBLE_DEVICES=4,5 llamafactory-cli eval \
--model_name_or_path /data/pretrain_models/chatglm3-6b \
--template fewshot \
--task mmlu \
--split test \
--lang en \
--n_shot 5 \
--save_dir /data/zdz/LLM/LLaMA-Factory_eval/chatglm3-6b_ori_mmlu \
--batch_size 32
得到的结果是
Average: 51.06
STEM: 44.57
Social Sciences: 60.06
Humanities: 45.57
Other: 56.54
这个51.06明显低于公开结果:
请问可能是什么原因呢?是传入参数哪里没写对吗
评测方法不一样
Reminder
System Info
llamafactory
version: 0.8.2.dev0Reproduction
我尝试了使用chatglm3-6b模型和glm-4-9b模型进行微调。根据readme,微调时显然要将
template
设置为chatglm3
和glm4
,这是没问题的。 我注意到readme里还有一句话:因此起初我在做eval时都是将
template
参数设为与微调时一样的。这样得到的结果比公开测评结果要差很多,大约20%,所以是有问题的。 之后我注意到有人对llama2问了类似的问题,你给出的回复是应该用vanilla
( https://github.com/hiyouga/LLaMA-Factory/issues/1232#issuecomment-1772803262 ) 我感到困惑,因为readme里从来没有提过vanilla
,只是提过default, alpaca, vicuna
。之后我尝试在eval glm-4-9b 时,把
default
传入,这样得到的结果与公开测评基本一致。所以我想问问,chatglm3-6b模型和glm-4-9b模型在eval时到底应该给
template
传入什么?都是传default
吗?这样是不是违背了训练与推理时采用完全一致模板的要求?有没有相关文档能讲清楚本项目的各个传入参数是什么意思?非常感谢!Expected behavior
有没有相关文档能讲清楚本项目的各个传入参数是什么意思,这样对于理解比较有帮助,非常感谢
Others
No response