hiyouga / LLaMA-Factory

Unified Efficient Fine-Tuning of 100+ LLMs (ACL 2024)
https://arxiv.org/abs/2403.13372
Apache License 2.0
35.3k stars 4.35k forks source link

nn.embedding会参与反向传播更新参数吗? #1324

Closed YuMeng2v closed 1 year ago

YuMeng2v commented 1 year ago

在微调qwen的时候,大致的流程: tokenize->nn.embedding->QWenBlock->输出embedding->nn.Linear 输出token计算loss 请求nn.embedding会参与反向传播吗,想在embedding层计算loss优化效果。 如果默认不参与的话,怎么加入nn.embedding的训练呢?

YuMeng2v commented 1 year ago

换句话说,在哪个地方修改lora config呢

hiyouga commented 1 year ago

对于 Qwen 模型添加参数 --additional_target wte

YuMeng2v commented 1 year ago

对于 Qwen 模型添加参数 --additional_target wte

请问避免梯度爆炸有哪些参数可以选呢,现在一back就nan,用了layer norm

YuMeng2v commented 1 year ago

请问其他这几个大模型,是添加哪个参数训练embedding呢~ [LLaMA] [LLaMA-2] BLOOMZ 560M/1.1B/1.7B/3B/7.1B/176B query_key_value - [Falcon] Baichuan 7B/13B W_pack baichuan [InternLM] [Qwen] [ChatGLM3] [Phi-1.5]

hiyouga commented 1 year ago

--upcast_layernorm True