Closed fishiu closed 11 months ago
pred.py的代码我们只在单卡A100上测试过,各模型均不面临爆显存的问题(在32k下也不会)。您用单卡试一下?另外,请确保replace_llama_attn_with_flash_attn()这段patch代码已被执行。
感谢回复!我后来关掉flashattention之后发现反而可以运行llama了,是我安装的flash attention有问题,虽然具体原因我还没找到,总之重新安装flash attention之后就可以了。
另外请问为什么把max length改成1500会报错呀?RuntimeError: cu_seqlens_q must have shape (batch_size + 1)
这是预期内的吗,和batch size有什么关系?
不好意思,这个报错我们没有遇到过。按说max_length不会让代码产生bug。cu_seqlens_q
是FlashAttention中涉及的参数,可能你的FlashAttention安装有问题?试试重新装一下FlashAttention吧!
确实是的,重新跑一下没问题了,感谢!
以下为使用四卡A100 40G(CUDA_VISIBLE_DEVICES=0 也是一样的情况)运行 python pred.py --model llama2-7b-chat-4k --e 的输出,确认max length是3500,居然需要申请140G显存?根据输出显示llama也开启了flash attention。同样的环境chatglm2-6b-32k完全没有显存问题,是因为chatglm用了特殊的技术吗?
另外我尝试把max length改成1500会报错
RuntimeError: cu_seqlens_q must have shape (batch_size + 1)
这是预期内的吗,我不理解这跟batch size有什么关系呀