Closed valkryhx closed 1 year ago
是全量参数的,没有使用lora冻结原版权重那种方式训练。 反研比较急,微调模型代码开源较为仓租,目前仅支持两种微调:4bit量化的GPU上全量高效参数训练、和CPU上的全量参数训练但很消耗内存。 使用华盛顿nf4数据Qlora训练可参考:https://github.com/shuxueslpi/chatGLM-6B-QLoRA 使用lora训练可参考:https://github.com/yongzhuo/ChatGLM2-SFT
感谢您的指导
另外想请教一下全量微调后模型原始能力保留情况如何?全量微调使用的语料知识融入的好吗?lr取多少合适呢
全量参数微调会影响到原始权重的能力。 全量微调后的模型会则重表现微调训练数据承载的知识,如果你不用lora冻结原始权重或者不用多任务指令微调的情况下,模型将被训练为单一的任务类型,但效果是不错的,因为都是基于原始权重之上的阅读理解学习。 初始lr建议适当大点,官方的是2e-2,训练中动态递减。 想保留原始权重能力,可以考虑(Q)LORA训练。
感谢!
如题。