Tele-AI / Telechat

1.67k stars 85 forks source link

使用LLama-Factory Lora微调后推理报错 #22

Open JasonCZH4 opened 4 months ago

JasonCZH4 commented 4 months ago

报错:assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常,但是推理时报错,在config.json中关闭flash_attention就能恢复正常。 与 https://github.com/QwenLM/Qwen/issues/182 问题相同,应该是flash_attention问题,提个issue,供其他人参考。

liuxz0801 commented 3 months ago

加载权重的时候,dtype写明torch.float16,如果写bfloat16也有可能会报该错误的

okone1995 commented 2 months ago

报错:assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常,但是推理时报错,在config.json中关闭flash_attention就能恢复正常。 与 QwenLM/Qwen#182 问题相同,应该是flash_attention问题,提个issue,供其他人参考。

请问大佬,你是怎么用LLama-Factory微调的

JasonCZH4 commented 2 months ago

报错:assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常,但是推理时报错,在config.json中关闭flash_attention就能恢复正常。 与 QwenLM/Qwen#182 问题相同,应该是flash_attention问题,提个issue,供其他人参考。

请问大佬,你是怎么用LLama-Factory微调的

正常微调就行,模板用default

zhqdxb commented 1 month ago

请问LLama-Factory微调时,lora_target参数写什么啊?

huxian123 commented 1 month ago

报错:assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常,但是推理时报错,在config.json中关闭flash_attention就能恢复正常。 与 QwenLM/Qwen#182 问题相同,应该是flash_attention问题,提个issue,供其他人参考。

请问大佬,你是怎么用LLama-Factory微调的

正常微调就行,模板用default

大佬,你的template用哪个

JasonCZH4 commented 1 month ago

报错:assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常,但是推理时报错,在config.json中关闭flash_attention就能恢复正常。 与 QwenLM/Qwen#182 问题相同,应该是flash_attention问题,提个issue,供其他人参考。

请问大佬,你是怎么用LLama-Factory微调的

正常微调就行,模板用default

大佬,你的template用哪个

就是default,但是telechat是对话模型,用default会有点问题,我后面没有深究了

huxian123 commented 1 month ago

报错:assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常,但是推理时报错,在config.json中关闭flash_attention就能恢复正常。 与 QwenLM/Qwen#182 问题相同,应该是flash_attention问题,提个issue,供其他人参考。

请问大佬,你是怎么用LLama-Factory微调的

正常微调就行,模板用default

大佬,你的template用哪个

就是default,但是telechat是对话模型,用default会有点问题,我后面没有深究了

template="default",
module="q_proj,v_proj,W_pack",  这两个字段值是这个吗
JasonCZH4 commented 1 month ago

报错:assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常,但是推理时报错,在config.json中关闭flash_attention就能恢复正常。 与 QwenLM/Qwen#182 问题相同,应该是flash_attention问题,提个issue,供其他人参考。

请问大佬,你是怎么用LLama-Factory微调的

正常微调就行,模板用default

大佬,你的template用哪个

就是default,但是telechat是对话模型,用default会有点问题,我后面没有深究了

template="default",
module="q_proj,v_proj,W_pack",  这两个字段值是这个吗

不用W_pack吧,按照llama的结构来就好