Closed YuMeng2v closed 1 year ago
在微调qwen的时候,大致的流程: tokenize->nn.embedding->QWenBlock->输出embedding->nn.Linear 输出token计算loss 请求nn.embedding会参与反向传播吗,想在embedding层计算loss优化效果。 如果默认不参与的话,怎么加入nn.embedding的训练呢?
换句话说,在哪个地方修改lora config呢
对于 Qwen 模型添加参数 --additional_target wte
--additional_target wte
请问避免梯度爆炸有哪些参数可以选呢,现在一back就nan,用了layer norm
请问其他这几个大模型,是添加哪个参数训练embedding呢~ [LLaMA] [LLaMA-2] BLOOMZ 560M/1.1B/1.7B/3B/7.1B/176B query_key_value - [Falcon] Baichuan 7B/13B W_pack baichuan [InternLM] [Qwen] [ChatGLM3] [Phi-1.5]
--upcast_layernorm True
在微调qwen的时候,大致的流程: tokenize->nn.embedding->QWenBlock->输出embedding->nn.Linear 输出token计算loss 请求nn.embedding会参与反向传播吗,想在embedding层计算loss优化效果。 如果默认不参与的话,怎么加入nn.embedding的训练呢?