ymcui / Chinese-LLaMA-Alpaca

中文LLaMA&Alpaca大语言模型+本地CPU/GPU训练部署 (Chinese LLaMA & Alpaca LLMs)
https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki
Apache License 2.0
18.23k stars 1.86k forks source link

关于pretrain阶段的一些疑问 #799

Closed chenhk-chn closed 1 year ago

chenhk-chn commented 1 year ago

提交前必须检查以下项目

问题类型

其他问题

基础模型

LLaMA-13B

操作系统

Linux

详细描述问题

想咨询一下关于扩充词表进行pretrain的问题。 我阅读了您的QA以及一些issue,发现两种预训练方式。 一是早期的,stage1是针对扩充的词表,先训练resize之后的embedding,再用lora进行embedding、lm head和transformers的pretrain 二是后期的,直接用lora进行embedding、lm head和transformers的pretrain

我的问题是: 在早期的一中,stage1中为什么只训练embedding,而不把对应的lm head也一起训了? 在后期的二中,针对新词表扩充的embedding和lm head的参数是随机初始化的吗?然后直接用lora去pretrain整个模型吗?这样会不会带来一个问题,也就是初始模型新增词表部分是随机参数,但是对应的lora模型的参数是有序的,融合后这部分的效果会不太好。

依赖情况(代码类问题务必提供)

# 请在此处粘贴依赖情况

运行日志或截图

# 请在此处粘贴运行日志
ymcui commented 1 year ago

关于stage1/2的问题我们已经在技术报告中给出解释了,属于历史遗留问题,不推荐使用。

chenhk-chn commented 1 year ago

嗯嗯,我看过技术报告了。只是很好奇为啥stage1但是决定只训练embedding,而不带上lm head

chenhk-chn commented 1 year ago

另外是后期的训练方式中,embedding和lm head的reisze之后,新增的权重是随机初始化的吗?然后直接配一个lora进行训练吗?

github-actions[bot] commented 1 year ago

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.

github-actions[bot] commented 1 year ago

Closing the issue, since no updates observed. Feel free to re-open if you need any further assistance.