lilongxian / BaiYang-chatGLM2-6B

(1)弹性区间标准化的旋转位置词嵌入编码器+peft LORA量化训练,提高万级tokens性能支持。(2)证据理论解释学习,提升模型的复杂逻辑推理能力(3)兼容alpaca数据格式。
45 stars 3 forks source link

请问大佬 代码中没有看到lora和ptuning相关参数 请问是全量finetune吗 #1

Closed valkryhx closed 1 year ago

valkryhx commented 1 year ago

如题。

lilongxian commented 1 year ago

是全量参数的,没有使用lora冻结原版权重那种方式训练。 反研比较急,微调模型代码开源较为仓租,目前仅支持两种微调:4bit量化的GPU上全量高效参数训练、和CPU上的全量参数训练但很消耗内存。 使用华盛顿nf4数据Qlora训练可参考:https://github.com/shuxueslpi/chatGLM-6B-QLoRA 使用lora训练可参考:https://github.com/yongzhuo/ChatGLM2-SFT

valkryhx commented 1 year ago

感谢您的指导

valkryhx commented 1 year ago

另外想请教一下全量微调后模型原始能力保留情况如何?全量微调使用的语料知识融入的好吗?lr取多少合适呢

lilongxian commented 1 year ago

全量参数微调会影响到原始权重的能力。 全量微调后的模型会则重表现微调训练数据承载的知识,如果你不用lora冻结原始权重或者不用多任务指令微调的情况下,模型将被训练为单一的任务类型,但效果是不错的,因为都是基于原始权重之上的阅读理解学习。 初始lr建议适当大点,官方的是2e-2,训练中动态递减。 想保留原始权重能力,可以考虑(Q)LORA训练。

valkryhx commented 1 year ago

感谢!