deeplabv3p的onnx模型使用GPU+FP16推理耗时增加

PaddlePaddle / FastDeploy

⚡️An Easy-to-use and Fast Deep Learning Model Deployment Toolkit for ☁️Cloud 📱Mobile and 📹Edge. Including Image, Video, Text and Audio 20+ main stream scenarios and 150+ SOTA models with end-to-end optimization, multi-platform and multi-framework support.

https://www.paddlepaddle.org.cn/fastdeploy

Apache License 2.0

2.93k stars 456 forks source link

deeplabv3p的onnx模型使用GPU+FP16推理耗时增加 #2459

Open zyz207 opened 4 months ago

zyz207 commented 4 months ago

环境

【FastDeploy版本】：release 1.0.0
【编译命令】
【系统平台】: Windows x64(Windows10)
【硬件】： Nvidia GPU 3060， CUDA 11.8 CUDNN 8.5
【编译语言】： C++

【性能问题】 deeplabv3p的onnx模型使用GPU+FP16推理耗时增加，将近翻倍。

heliqi commented 4 months ago

耗时相比什么增加了一倍？

heliqi commented 4 months ago

可以尝试使用trt 后端，应该更快