Closed chenhk-chn closed 1 year ago
关于stage1/2的问题我们已经在技术报告中给出解释了,属于历史遗留问题,不推荐使用。
嗯嗯,我看过技术报告了。只是很好奇为啥stage1但是决定只训练embedding,而不带上lm head
另外是后期的训练方式中,embedding和lm head的reisze之后,新增的权重是随机初始化的吗?然后直接配一个lora进行训练吗?
This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.
Closing the issue, since no updates observed. Feel free to re-open if you need any further assistance.
提交前必须检查以下项目
问题类型
其他问题
基础模型
LLaMA-13B
操作系统
Linux
详细描述问题
想咨询一下关于扩充词表进行pretrain的问题。 我阅读了您的QA以及一些issue,发现两种预训练方式。 一是早期的,stage1是针对扩充的词表,先训练resize之后的embedding,再用lora进行embedding、lm head和transformers的pretrain 二是后期的,直接用lora进行embedding、lm head和transformers的pretrain
我的问题是: 在早期的一中,stage1中为什么只训练embedding,而不把对应的lm head也一起训了? 在后期的二中,针对新词表扩充的embedding和lm head的参数是随机初始化的吗?然后直接用lora去pretrain整个模型吗?这样会不会带来一个问题,也就是初始模型新增词表部分是随机参数,但是对应的lora模型的参数是有序的,融合后这部分的效果会不太好。
依赖情况(代码类问题务必提供)
运行日志或截图