songmzhang / DSKD

Repo for Paper "Dual-Space Knowledge Distillation for Large Language Models".
29 stars 3 forks source link

qwen #11

Open zjjznw123 opened 1 month ago

zjjznw123 commented 1 month ago

针对qwen的SFT for student models 代码没看到

songmzhang commented 1 month ago

你好,在我们论文的实验中,qwen1.5-1.8b只用作与GPT2具有不同词表的教师模型,以实现跨词表知识蒸馏。如果你有将qwen作为学生模型的需求,可以复用scripts/gpt2/sft_teacher_qwen.sh,然后根据具体的模型大小简单调整一下学习率即可。

zjjznw123 commented 1 month ago

你好,在我们论文的实验中,qwen1.5-1.8b只用作与GPT2具有不同词表的教师模型,以实现跨词表知识蒸馏。如果你有将qwen作为学生模型的需求,可以复用scripts/gpt2/sft_teacher_qwen.sh,然后根据具体的模型大小简单调整一下学习率即可。

只针对qwen1.5-1.8b做知识蒸馏,这个应该怎么修改

songmzhang commented 1 month ago

如果你想用更大的qwen模型对qwen1.5-1.8b做知识蒸馏(qwen1.5-1.8b作为学生模型),可以使用scripts/gpt2/vanilla_kd_gpt2_base.shscripts/gpt2/dskd_gpt2_base.sh,修改其中的CKPT_TYPETEACHER_MODEL_TYPE为qwen,修改CKPT_NAMETEACHER_MODEL_NAME为Qwen1.5-1.8b和Qwenxx-xb(你所用的教师模型名字,如Qwen2-7B),然后TEACHER_MODEL_PATH为训练保存的教师模型绝对路径。

然后学习率沿用scripts/gpt2/sft_teacher_qwen.sh中的学习率即可。