[Bug]: RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling cublasLtMatmul with transpose_mat1 t transpose_mat2 n m 9216 n 3398 k 7168 mat1_ld 7168 mat2_ld 7168 result_ld 9216 computeType 68 scaleType 0

Your current environment

Collecting environment information...
PyTorch version: 2.3.0+cu121
Is debug build: False
CUDA used to build PyTorch: 12.1
ROCM used to build PyTorch: N/A

OS: Ubuntu 22.04 LTS (x86_64)
GCC version: (Ubuntu 11.2.0-19ubuntu1) 11.2.0
Clang version: Could not collect
CMake version: version 3.29.5
Libc version: glibc-2.35

Python version: 3.10.14 (main, May  6 2024, 19:42:50) [GCC 11.2.0] (64-bit runtime)
Python platform: Linux-5.15.0-101-generic-x86_64-with-glibc2.35
Is CUDA available: True
CUDA runtime version: 12.2.140
CUDA_MODULE_LOADING set to: LAZY
GPU models and configuration: 
GPU 0: NVIDIA L40
GPU 1: NVIDIA L40
GPU 2: NVIDIA L40
GPU 3: NVIDIA L40
GPU 4: NVIDIA L40
GPU 5: NVIDIA L40
GPU 6: NVIDIA L40
GPU 7: NVIDIA L40

Nvidia driver version: 535.161.07
cuDNN version: Probably one of the following:
/usr/local/cuda-12.2/targets/x86_64-linux/lib/libcudnn.so.8
/usr/local/cuda-12.2/targets/x86_64-linux/lib/libcudnn_adv_infer.so.8
/usr/local/cuda-12.2/targets/x86_64-linux/lib/libcudnn_adv_train.so.8
/usr/local/cuda-12.2/targets/x86_64-linux/lib/libcudnn_cnn_infer.so.8
/usr/local/cuda-12.2/targets/x86_64-linux/lib/libcudnn_cnn_train.so.8
/usr/local/cuda-12.2/targets/x86_64-linux/lib/libcudnn_ops_infer.so.8
/usr/local/cuda-12.2/targets/x86_64-linux/lib/libcudnn_ops_train.so.8
HIP runtime version: N/A
MIOpen runtime version: N/A
Is XNNPACK available: True

CPU:
Architecture:                       x86_64
CPU op-mode(s):                     32-bit, 64-bit
Address sizes:                      52 bits physical, 48 bits virtual
Byte Order:                         Little Endian
CPU(s):                             384
On-line CPU(s) list:                0-383
Vendor ID:                          AuthenticAMD
Model name:                         AMD EPYC 9K84 96-Core Processor
CPU family:                         25
Model:                              17
Thread(s) per core:                 2
Core(s) per socket:                 96
Socket(s):                          2
Stepping:                           0
BogoMIPS:                           5200.03
Flags:                              fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc rep_good nopl nonstop_tsc cpuid extd_apicid amd_dcm tsc_known_freq pni pclmulqdq monitor ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hypervisor lahf_lm cmp_legacy cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw topoext perfctr_core invpcid_single ibpb vmmcall fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid avx512f avx512dq rdseed adx smap avx512ifma clflushopt clwb avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 avx512_bf16 clzero xsaveerptr wbnoinvd arat avx512vbmi umip avx512_vbmi2 vaes vpclmulqdq avx512_vnni avx512_bitalg avx512_vpopcntdq rdpid fsrm
Hypervisor vendor:                  KVM
Virtualization type:                full
L1d cache:                          6 MiB (192 instances)
L1i cache:                          6 MiB (192 instances)
L2 cache:                           192 MiB (192 instances)
L3 cache:                           768 MiB (24 instances)
NUMA node(s):                       2
NUMA node0 CPU(s):                  0-191
NUMA node1 CPU(s):                  192-383
Vulnerability Gather data sampling: Not affected
Vulnerability Itlb multihit:        Not affected
Vulnerability L1tf:                 Not affected
Vulnerability Mds:                  Not affected
Vulnerability Meltdown:             Not affected
Vulnerability Mmio stale data:      Not affected
Vulnerability Retbleed:             Not affected
Vulnerability Spec rstack overflow: Mitigation; safe RET, no microcode
Vulnerability Spec store bypass:    Vulnerable
Vulnerability Spectre v1:           Mitigation; usercopy/swapgs barriers and __user pointer sanitization
Vulnerability Spectre v2:           Mitigation; Retpolines, IBPB conditional, STIBP disabled, RSB filling, PBRSB-eIBRS Not affected
Vulnerability Srbds:                Not affected
Vulnerability Tsx async abort:      Not affected

Versions of relevant libraries:
[pip3] numpy==1.26.4
[pip3] nvidia-nccl-cu12==2.20.5
[pip3] torch==2.3.0
[pip3] transformers==4.41.2
[pip3] triton==2.3.0
[conda] numpy                     1.26.4                   pypi_0    pypi
[conda] nvidia-nccl-cu12          2.20.5                   pypi_0    pypi
[conda] torch                     2.3.0                    pypi_0    pypi
[conda] transformers              4.41.2                   pypi_0    pypi
[conda] triton                    2.3.0                    pypi_0    pypi
ROCM Version: Could not collect
Neuron SDK Version: N/A
vLLM Version: 0.5.0.post1
vLLM Build Flags:
CUDA Archs: Not Set; ROCm: Disabled; Neuron: Disabled
GPU Topology:
GPU0    GPU1    GPU2    GPU3    GPU4    GPU5    GPU6    GPU7    CPU Affinity    NUMA Affinity   GPU NUMA ID
GPU0     X      NODE    NODE    NODE    SYS     SYS     SYS     SYS     0-191   0               N/A
GPU1    NODE     X      PIX     NODE    SYS     SYS     SYS     SYS     0-191   0               N/A
GPU2    NODE    PIX      X      NODE    SYS     SYS     SYS     SYS     0-191   0               N/A
GPU3    NODE    NODE    NODE     X      SYS     SYS     SYS     SYS     0-191   0               N/A
GPU4    SYS     SYS     SYS     SYS      X      NODE    NODE    NODE    192-383 1               N/A
GPU5    SYS     SYS     SYS     SYS     NODE     X      PIX     NODE    192-383 1               N/A
GPU6    SYS     SYS     SYS     SYS     NODE    PIX      X      NODE    192-383 1               N/A
GPU7    SYS     SYS     SYS     SYS     NODE    NODE    NODE     X      192-383 1               N/A

Legend:

  X    = Self
  SYS  = Connection traversing PCIe as well as the SMP interconnect between NUMA nodes (e.g., QPI/UPI)
  NODE = Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node
  PHB  = Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU)
  PXB  = Connection traversing multiple PCIe bridges (without traversing the PCIe Host Bridge)
  PIX  = Connection traversing at most a single PCIe bridge
  NV#  = Connection traversing a bonded set of # NVLinks

🐛 Describe the bug

how to deploy model

CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.openai.api_server --model /data/home/model/Yi-1.5-34B-Chat-FP8 -tp=1 --trust-remote-code --gpu-memory-utilization 0.8 --max-model-len 4096 --port 8081 --enable-prefix-caching --quantization fp8 --enforce-eager

from datasets import load_dataset
from transformers import AutoTokenizer

from auto_fp8 import AutoFP8ForCausalLM, BaseQuantizeConfig

pretrained_model_dir = "/data/home/model/yi/34b/origin/Yi-1.5-34B-Chat"
quantized_model_dir = "/data/home/model/yi/34b/origin/Yi-1.5-34B-Chat-FP8"

tokenizer = AutoTokenizer.from_pretrained(pretrained_model_dir, use_fast=True, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token

ds = load_dataset("mgoin/ultrachat_2k", split="train_sft").select(range(512))
examples = [tokenizer.apply_chat_template(batch["messages"], tokenize=False) for batch in ds]
examples = tokenizer(examples, padding=True, truncation=True, return_tensors="pt").to("cuda")

quantize_config = BaseQuantizeConfig(quant_method="fp8", activation_scheme="static")

model = AutoFP8ForCausalLM.from_pretrained(
    pretrained_model_dir, quantize_config=quantize_config
)
model.quantize(examples)
model.save_quantized(quantized_model_dir)

I use the fp8 model Yi-1.5-34B-Chat-FP8 generated by the above python script. Then I have a pressure test with concurrency 128. Then have a error log as the below:

ERROR 06-21 14:10:32 async_llm_engine.py:52] Engine background task failed
ERROR 06-21 14:10:32 async_llm_engine.py:52] Traceback (most recent call last):
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/engine/async_llm_engine.py", line 42, in _log_task_completion
ERROR 06-21 14:10:32 async_llm_engine.py:52]     return_value = task.result()
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/engine/async_llm_engine.py", line 532, in run_engine_loop
ERROR 06-21 14:10:32 async_llm_engine.py:52]     has_requests_in_progress = await asyncio.wait_for(
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/asyncio/tasks.py", line 445, in wait_for
ERROR 06-21 14:10:32 async_llm_engine.py:52]     return fut.result()
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/engine/async_llm_engine.py", line 506, in engine_step
ERROR 06-21 14:10:32 async_llm_engine.py:52]     request_outputs = await self.engine.step_async()
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/engine/async_llm_engine.py", line 235, in step_async
ERROR 06-21 14:10:32 async_llm_engine.py:52]     output = await self.model_executor.execute_model_async(
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/executor/gpu_executor.py", line 117, in execute_model_async
ERROR 06-21 14:10:32 async_llm_engine.py:52]     output = await make_async(self.driver_worker.execute_model
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/concurrent/futures/thread.py", line 58, in run
ERROR 06-21 14:10:32 async_llm_engine.py:52]     result = self.fn(*self.args, **self.kwargs)
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context
ERROR 06-21 14:10:32 async_llm_engine.py:52]     return func(*args, **kwargs)
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/worker/worker.py", line 280, in execute_model
ERROR 06-21 14:10:32 async_llm_engine.py:52]     output = self.model_runner.execute_model(seq_group_metadata_list,
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context
ERROR 06-21 14:10:32 async_llm_engine.py:52]     return func(*args, **kwargs)
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/worker/model_runner.py", line 749, in execute_model
ERROR 06-21 14:10:32 async_llm_engine.py:52]     hidden_states = model_executable(
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1532, in _wrapped_call_impl
ERROR 06-21 14:10:32 async_llm_engine.py:52]     return self._call_impl(*args, **kwargs)
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1541, in _call_impl
ERROR 06-21 14:10:32 async_llm_engine.py:52]     return forward_call(*args, **kwargs)
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/model_executor/models/llama.py", line 371, in forward
ERROR 06-21 14:10:32 async_llm_engine.py:52]     hidden_states = self.model(input_ids, positions, kv_caches,
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1532, in _wrapped_call_impl
ERROR 06-21 14:10:32 async_llm_engine.py:52]     return self._call_impl(*args, **kwargs)
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1541, in _call_impl
ERROR 06-21 14:10:32 async_llm_engine.py:52]     return forward_call(*args, **kwargs)
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/model_executor/models/llama.py", line 288, in forward
ERROR 06-21 14:10:32 async_llm_engine.py:52]     hidden_states, residual = layer(
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1532, in _wrapped_call_impl
ERROR 06-21 14:10:32 async_llm_engine.py:52]     return self._call_impl(*args, **kwargs)
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1541, in _call_impl
ERROR 06-21 14:10:32 async_llm_engine.py:52]     return forward_call(*args, **kwargs)
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/model_executor/models/llama.py", line 227, in forward
ERROR 06-21 14:10:32 async_llm_engine.py:52]     hidden_states = self.self_attn(
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1532, in _wrapped_call_impl
ERROR 06-21 14:10:32 async_llm_engine.py:52]     return self._call_impl(*args, **kwargs)
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1541, in _call_impl
ERROR 06-21 14:10:32 async_llm_engine.py:52]     return forward_call(*args, **kwargs)
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/model_executor/models/llama.py", line 158, in forward
ERROR 06-21 14:10:32 async_llm_engine.py:52]     qkv, _ = self.qkv_proj(hidden_states)
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1532, in _wrapped_call_impl
ERROR 06-21 14:10:32 async_llm_engine.py:52]     return self._call_impl(*args, **kwargs)
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1541, in _call_impl
ERROR 06-21 14:10:32 async_llm_engine.py:52]     return forward_call(*args, **kwargs)
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/model_executor/layers/linear.py", line 298, in forward
ERROR 06-21 14:10:32 async_llm_engine.py:52]     output_parallel = self.quant_method.apply(self, input_, bias)
ERROR 06-21 14:10:32 async_llm_engine.py:52]   File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/model_executor/layers/quantization/fp8.py", line 283, in apply
ERROR 06-21 14:10:32 async_llm_engine.py:52]     output, _ = torch._scaled_mm(
ERROR 06-21 14:10:32 async_llm_engine.py:52] RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling cublasLtMatmul with transpose_mat1 t transpose_mat2 n m 9216 n 3398 k 7168 mat1_ld 7168 mat2_ld 7168 result_ld 9216 computeType 68 scaleType 0
Exception in callback functools.partial(<function _log_task_completion at 0x7f5157c375b0>, error_callback=<bound method AsyncLLMEngine._error_callback of <vllm.engine.async_llm_engine.AsyncLLMEngine object at 0x7f513fea2170>>)
handle: <Handle functools.partial(<function _log_task_completion at 0x7f5157c375b0>, error_callback=<bound method AsyncLLMEngine._error_callback of <vllm.engine.async_llm_engine.AsyncLLMEngine object at 0x7f513fea2170>>)>
Traceback (most recent call last):
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/engine/async_llm_engine.py", line 42, in _log_task_completion
    return_value = task.result()
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/engine/async_llm_engine.py", line 532, in run_engine_loop
    has_requests_in_progress = await asyncio.wait_for(
  File "/data/home/.conda/envs/vllm/lib/python3.10/asyncio/tasks.py", line 445, in wait_for
    return fut.result()
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/engine/async_llm_engine.py", line 506, in engine_step
    request_outputs = await self.engine.step_async()
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/engine/async_llm_engine.py", line 235, in step_async
    output = await self.model_executor.execute_model_async(
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/executor/gpu_executor.py", line 117, in execute_model_async
    output = await make_async(self.driver_worker.execute_model
  File "/data/home/.conda/envs/vllm/lib/python3.10/concurrent/futures/thread.py", line 58, in run
    result = self.fn(*self.args, **self.kwargs)
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context
    return func(*args, **kwargs)
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/worker/worker.py", line 280, in execute_model
    output = self.model_runner.execute_model(seq_group_metadata_list,
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context
    return func(*args, **kwargs)
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/worker/model_runner.py", line 749, in execute_model
    hidden_states = model_executable(
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1532, in _wrapped_call_impl
    return self._call_impl(*args, **kwargs)
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1541, in _call_impl
    return forward_call(*args, **kwargs)
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/model_executor/models/llama.py", line 371, in forward
    hidden_states = self.model(input_ids, positions, kv_caches,
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1532, in _wrapped_call_impl
    return self._call_impl(*args, **kwargs)
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1541, in _call_impl
    return forward_call(*args, **kwargs)
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/model_executor/models/llama.py", line 288, in forward
    hidden_states, residual = layer(
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1532, in _wrapped_call_impl
    return self._call_impl(*args, **kwargs)
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1541, in _call_impl
    return forward_call(*args, **kwargs)
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/model_executor/models/llama.py", line 227, in forward
    hidden_states = self.self_attn(
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1532, in _wrapped_call_impl
    return self._call_impl(*args, **kwargs)
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1541, in _call_impl
    return forward_call(*args, **kwargs)
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/model_executor/models/llama.py", line 158, in forward
    qkv, _ = self.qkv_proj(hidden_states)
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1532, in _wrapped_call_impl
    return self._call_impl(*args, **kwargs)
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1541, in _call_impl
    return forward_call(*args, **kwargs)
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/model_executor/layers/linear.py", line 298, in forward
    output_parallel = self.quant_method.apply(self, input_, bias)
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/model_executor/layers/quantization/fp8.py", line 283, in apply
    output, _ = torch._scaled_mm(
RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling cublasLtMatmul with transpose_mat1 t transpose_mat2 n m 9216 n 3398 k 7168 mat1_ld 7168 mat2_ld 7168 result_ld 9216 computeType 68 scaleType 0

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
  File "uvloop/cbhandles.pyx", line 63, in uvloop.loop.Handle._run
  File "/data/home/.conda/envs/vllm/lib/python3.10/site-packages/vllm/engine/async_llm_engine.py", line 54, in _log_task_completion
    raise AsyncEngineDeadError(
vllm.engine.async_llm_engine.AsyncEngineDeadError: Task finished unexpectedly. This should never happen! Please open an issue on Github. See stack trace above for theactual cause.

vllm-project / vllm

[Bug]: RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling cublasLtMatmul with transpose_mat1 t transpose_mat2 n m 9216 n 3398 k 7168 mat1_ld 7168 mat2_ld 7168 result_ld 9216 computeType 68 scaleType 0 #5731

Your current environment

🐛 Describe the bug

how to deploy model