[Bug]: As V100 does not support FlashAttention, it is not possible to run the gemma model, hopefully it can support the xformers way to run it

warlockedward commented 3 weeks ago

Your current environment

The output of `python collect_env.py`

🐛 Describe the bug

python3 -m vllm.entrypoints.openai.api_server --model /model/models/gemma-2-27b-it/ --dtype float16 --gpu-memory-utilization 0.98 --dtype float16 --port xxxxxx --tensor-parallel-size 8 --served-model-name gemma-2-27b --disable-custom-all-reduce --disable-sliding-window rank0]: Traceback (most recent call last): rank0: File "", line 198, in _run_module_as_main rank0: File "", line 88, in _run_code rank0: File "/model/anaconda3/envs/vllm/lib/python3.11/site-packages/vllm/entrypoints/openai/api_server.py", line 216, in rank0: engine = AsyncLLMEngine.from_engine_args(

rank0: File "/model/anaconda3/envs/vllm/lib/python3.11/site-packages/vllm/engine/async_llm_engine.py", line 431, in from_engine_args rank0: engine = cls(

rank0: File "/model/anaconda3/envs/vllm/lib/python3.11/site-packages/vllm/engine/async_llm_engine.py", line 360, in init rank0: self.engine = self._init_engine(*args, **kwargs)

rank0: File "/model/anaconda3/envs/vllm/lib/python3.11/site-packages/vllm/engine/async_llm_engine.py", line 507, in _init_engine rank0: return engine_class(*args, **kwargs)

rank0: File "/model/anaconda3/envs/vllm/lib/python3.11/site-packages/vllm/engine/llm_engine.py", line 256, in init

rank0: File "/model/anaconda3/envs/vllm/lib/python3.11/site-packages/vllm/engine/llm_engine.py", line 353, in _initialize_kv_caches

rank0: File "/model/anaconda3/envs/vllm/lib/python3.11/site-packages/vllm/executor/distributed_gpu_executor.py", line 38, in determine_num_available_blocks rank0: num_blocks = self._run_workers("determine_num_available_blocks", )

rank0: File "/model/anaconda3/envs/vllm/lib/python3.11/site-packages/vllm/executor/multiproc_gpu_executor.py", line 130, in _run_workers rank0: driver_worker_output = driver_worker_method(*args, **kwargs)

rank0: File "/model/anaconda3/envs/vllm/lib/python3.11/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context rank0: return func(*args, **kwargs)

rank0: File "/model/anaconda3/envs/vllm/lib/python3.11/site-packages/vllm/worker/worker.py", line 173, in determine_num_available_blocks

rank0: File "/model/anaconda3/envs/vllm/lib/python3.11/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context rank0: return func(*args, **kwargs)

rank0: File "/model/anaconda3/envs/vllm/lib/python3.11/site-packages/vllm/worker/model_runner.py", line 874, in profile_run rank0: self.execute_model(model_input, kv_caches, intermediate_tensors) rank0: File "/model/anaconda3/envs/vllm/lib/python3.11/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context rank0: return func(*args, **kwargs)

rank0: File "/model/anaconda3/envs/vllm/lib/python3.11/site-packages/vllm/worker/model_runner.py", line 1243, in execute_model rank0: hidden_or_intermediate_states = model_executable(

rank0: File "/model/anaconda3/envs/vllm/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1532, in _wrapped_call_impl rank0: return self._call_impl(*args, **kwargs)