Open zjjznw123 opened 2 months ago
你好,在我们论文的实验中,qwen1.5-1.8b只用作与GPT2具有不同词表的教师模型,以实现跨词表知识蒸馏。如果你有将qwen作为学生模型的需求,可以复用scripts/gpt2/sft_teacher_qwen.sh
,然后根据具体的模型大小简单调整一下学习率即可。
你好,在我们论文的实验中,qwen1.5-1.8b只用作与GPT2具有不同词表的教师模型,以实现跨词表知识蒸馏。如果你有将qwen作为学生模型的需求,可以复用
scripts/gpt2/sft_teacher_qwen.sh
,然后根据具体的模型大小简单调整一下学习率即可。
只针对qwen1.5-1.8b做知识蒸馏,这个应该怎么修改
如果你想用更大的qwen模型对qwen1.5-1.8b做知识蒸馏(qwen1.5-1.8b作为学生模型),可以使用scripts/gpt2/vanilla_kd_gpt2_base.sh
或scripts/gpt2/dskd_gpt2_base.sh
,修改其中的CKPT_TYPE
和TEACHER_MODEL_TYPE
为qwen,修改CKPT_NAME
和TEACHER_MODEL_NAME
为Qwen1.5-1.8b和Qwenxx-xb(你所用的教师模型名字,如Qwen2-7B),然后TEACHER_MODEL_PATH
为训练保存的教师模型绝对路径。
然后学习率沿用scripts/gpt2/sft_teacher_qwen.sh
中的学习率即可。
针对qwen的SFT for student models 代码没看到