prefix-enabled attention

            assert prefill_meta.seq_lens is not None
            max_seq_len = max(prefill_meta.seq_lens)
            flash_attn_varlen_func(

in this case,flash_attn_varlen_func input params order may be wrong.

cu_seqlens_q=prefill_meta.query_start_loc, max_seqlen_q=prefill_meta.max_query_len, cu_seqlens_k=prefill_meta.seq_start_loc, max_seqlen_k=max_seq_len,

the input order should be cu_s,cu_q,max_s,max_q?

vllm-project / vllm

[Bug]: flash_attn # prefix-enabled attention case forward code maybe error? #6720

Your current environment

🐛 Describe the bug

prefix-enabled attention