关于pretrain阶段的一些疑问

chenhk-chn commented 1 year ago

提交前必须检查以下项目

[X] 请确保使用的是仓库最新代码（git pull），一些问题已被解决和修复。
[X] 由于相关依赖频繁更新，请确保按照Wiki中的相关步骤执行
[X] 我已阅读FAQ章节并且已在Issue中对问题进行了搜索，没有找到相似问题和解决方案
[X] 第三方插件问题：例如llama.cpp、text-generation-webui、LlamaChat等，同时建议到对应的项目中查找解决方案
[X] 模型正确性检查：务必检查模型的SHA256.md，模型不对的情况下无法保证效果和正常运行

问题类型

其他问题

基础模型

LLaMA-13B

操作系统

Linux

详细描述问题

想咨询一下关于扩充词表进行pretrain的问题。我阅读了您的QA以及一些issue，发现两种预训练方式。一是早期的，stage1是针对扩充的词表，先训练resize之后的embedding，再用lora进行embedding、lm head和transformers的pretrain 二是后期的，直接用lora进行embedding、lm head和transformers的pretrain

我的问题是：在早期的一中，stage1中为什么只训练embedding，而不把对应的lm head也一起训了？在后期的二中，针对新词表扩充的embedding和lm head的参数是随机初始化的吗？然后直接用lora去pretrain整个模型吗？这样会不会带来一个问题，也就是初始模型新增词表部分是随机参数，但是对应的lora模型的参数是有序的，融合后这部分的效果会不太好。

依赖情况（代码类问题务必提供）

# 请在此处粘贴依赖情况

运行日志或截图

# 请在此处粘贴运行日志

ymcui commented 1 year ago

关于stage1/2的问题我们已经在技术报告中给出解释了，属于历史遗留问题，不推荐使用。

chenhk-chn commented 1 year ago

嗯嗯，我看过技术报告了。只是很好奇为啥stage1但是决定只训练embedding，而不带上lm head

chenhk-chn commented 1 year ago

另外是后期的训练方式中，embedding和lm head的reisze之后，新增的权重是随机初始化的吗？然后直接配一个lora进行训练吗？

github-actions[bot] commented 1 year ago

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.

github-actions[bot] commented 1 year ago

Closing the issue, since no updates observed. Feel free to re-open if you need any further assistance.

ymcui / Chinese-LLaMA-Alpaca