使用LLama-Factory Lora微调后推理报错

JasonCZH4 commented 4 months ago

报错：assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常，但是推理时报错，在config.json中关闭flash_attention就能恢复正常。与 https://github.com/QwenLM/Qwen/issues/182 问题相同，应该是flash_attention问题，提个issue，供其他人参考。

liuxz0801 commented 3 months ago

加载权重的时候，dtype写明torch.float16，如果写bfloat16也有可能会报该错误的

okone1995 commented 2 months ago

报错：assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常，但是推理时报错，在config.json中关闭flash_attention就能恢复正常。与 QwenLM/Qwen#182 问题相同，应该是flash_attention问题，提个issue，供其他人参考。

请问大佬，你是怎么用LLama-Factory微调的

JasonCZH4 commented 2 months ago

报错：assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常，但是推理时报错，在config.json中关闭flash_attention就能恢复正常。与 QwenLM/Qwen#182 问题相同，应该是flash_attention问题，提个issue，供其他人参考。

请问大佬，你是怎么用LLama-Factory微调的

正常微调就行，模板用default

zhqdxb commented 1 month ago

请问LLama-Factory微调时，lora_target参数写什么啊？

huxian123 commented 1 month ago

报错：assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常，但是推理时报错，在config.json中关闭flash_attention就能恢复正常。与 QwenLM/Qwen#182 问题相同，应该是flash_attention问题，提个issue，供其他人参考。

请问大佬，你是怎么用LLama-Factory微调的

正常微调就行，模板用default

大佬，你的template用哪个

JasonCZH4 commented 1 month ago

报错：assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常，但是推理时报错，在config.json中关闭flash_attention就能恢复正常。与 QwenLM/Qwen#182 问题相同，应该是flash_attention问题，提个issue，供其他人参考。

请问大佬，你是怎么用LLama-Factory微调的

正常微调就行，模板用default

大佬，你的template用哪个

就是default，但是telechat是对话模型，用default会有点问题，我后面没有深究了

huxian123 commented 1 month ago

报错：assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常，但是推理时报错，在config.json中关闭flash_attention就能恢复正常。与 QwenLM/Qwen#182 问题相同，应该是flash_attention问题，提个issue，供其他人参考。

请问大佬，你是怎么用LLama-Factory微调的

正常微调就行，模板用default

大佬，你的template用哪个

就是default，但是telechat是对话模型，用default会有点问题，我后面没有深究了

template="default",
module="q_proj,v_proj,W_pack",  这两个字段值是这个吗

JasonCZH4 commented 1 month ago

报错：assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v))) Lora微调正常，但是推理时报错，在config.json中关闭flash_attention就能恢复正常。与 QwenLM/Qwen#182 问题相同，应该是flash_attention问题，提个issue，供其他人参考。

请问大佬，你是怎么用LLama-Factory微调的

正常微调就行，模板用default

大佬，你的template用哪个

就是default，但是telechat是对话模型，用default会有点问题，我后面没有深究了
template="default",
module="q_proj,v_proj,W_pack",  这两个字段值是这个吗

不用W_pack吧，按照llama的结构来就好

Tele-AI / Telechat

使用LLama-Factory Lora微调后推理报错 #22