Open kiron111 opened 1 month ago
Is your feature request related to a problem? Please describe./您的功能请求是否与某个问题相关?请描述。
Flash Attention 是一種注意力算法,旨在提高基於 Transformer 的模型的效率,使其能夠處理更長的序列長度並更快地進行訓練和推理。
Flash-attention 在window 雖然不能直接用pip 安裝,但有非官方的安裝包︰ https://github.com/bdashore3/flash-attention/releases
如果按作者的安裝建議 pytorch 2.4.1 + cu124, 那麼安裝 Flash-attention v2.6.3, pytorch 2.4.0 版本,是能夠順利運作的 (當然也可以裝回舊版本的flash-attention, 作者之前有編譯pytorch 2.4.0;但新版本,理論上應該是更快一點)
這樣能加速推理,和減低顯存佔用
Describe the solution you'd like/描述您想要的解决方案 安裝方法,就選一個適合自己環境的版本,例如︰ pip install https://github.com/bdashore3/flash-attention/releases/download/v2.6.3/flash_attn-2.6.3+cu123torch2.4.0cxx11abiFALSE-cp311-cp311-win_amd64.whl
或者就自己編譯一個
挺好的想法,可惜我不会用flashattn😰
Is your feature request related to a problem? Please describe./您的功能请求是否与某个问题相关?请描述。
Flash Attention 是一種注意力算法,旨在提高基於 Transformer 的模型的效率,使其能夠處理更長的序列長度並更快地進行訓練和推理。
Flash-attention 在window 雖然不能直接用pip 安裝,但有非官方的安裝包︰ https://github.com/bdashore3/flash-attention/releases
如果按作者的安裝建議 pytorch 2.4.1 + cu124, 那麼安裝 Flash-attention v2.6.3, pytorch 2.4.0 版本,是能夠順利運作的 (當然也可以裝回舊版本的flash-attention, 作者之前有編譯pytorch 2.4.0;但新版本,理論上應該是更快一點)
這樣能加速推理,和減低顯存佔用
Describe the solution you'd like/描述您想要的解决方案
安裝方法,就選一個適合自己環境的版本,例如︰ pip install https://github.com/bdashore3/flash-attention/releases/download/v2.6.3/flash_attn-2.6.3+cu123torch2.4.0cxx11abiFALSE-cp311-cp311-win_amd64.whl
或者就自己編譯一個