Open JasonCZH4 opened 4 months ago
加载权重的时候,dtype写明torch.float16,如果写bfloat16也有可能会报该错误的
报错:assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常,但是推理时报错,在config.json中关闭flash_attention就能恢复正常。 与 QwenLM/Qwen#182 问题相同,应该是flash_attention问题,提个issue,供其他人参考。
请问大佬,你是怎么用LLama-Factory微调的
报错:assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常,但是推理时报错,在config.json中关闭flash_attention就能恢复正常。 与 QwenLM/Qwen#182 问题相同,应该是flash_attention问题,提个issue,供其他人参考。
请问大佬,你是怎么用LLama-Factory微调的
正常微调就行,模板用default
请问LLama-Factory微调时,lora_target参数写什么啊?
报错:assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常,但是推理时报错,在config.json中关闭flash_attention就能恢复正常。 与 QwenLM/Qwen#182 问题相同,应该是flash_attention问题,提个issue,供其他人参考。
请问大佬,你是怎么用LLama-Factory微调的
正常微调就行,模板用default
大佬,你的template用哪个
报错:assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常,但是推理时报错,在config.json中关闭flash_attention就能恢复正常。 与 QwenLM/Qwen#182 问题相同,应该是flash_attention问题,提个issue,供其他人参考。
请问大佬,你是怎么用LLama-Factory微调的
正常微调就行,模板用default
大佬,你的template用哪个
就是default,但是telechat是对话模型,用default会有点问题,我后面没有深究了
报错:assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常,但是推理时报错,在config.json中关闭flash_attention就能恢复正常。 与 QwenLM/Qwen#182 问题相同,应该是flash_attention问题,提个issue,供其他人参考。
请问大佬,你是怎么用LLama-Factory微调的
正常微调就行,模板用default
大佬,你的template用哪个
就是default,但是telechat是对话模型,用default会有点问题,我后面没有深究了
template="default",
module="q_proj,v_proj,W_pack", 这两个字段值是这个吗
报错:assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常,但是推理时报错,在config.json中关闭flash_attention就能恢复正常。 与 QwenLM/Qwen#182 问题相同,应该是flash_attention问题,提个issue,供其他人参考。
请问大佬,你是怎么用LLama-Factory微调的
正常微调就行,模板用default
大佬,你的template用哪个
就是default,但是telechat是对话模型,用default会有点问题,我后面没有深究了
template="default", module="q_proj,v_proj,W_pack", 这两个字段值是这个吗
不用W_pack吧,按照llama的结构来就好
报错:assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常,但是推理时报错,在config.json中关闭flash_attention就能恢复正常。 与 https://github.com/QwenLM/Qwen/issues/182 问题相同,应该是flash_attention问题,提个issue,供其他人参考。