OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.21k stars 439 forks source link

torch onnx tensorrt 推理速度和deployment.md评估效果差异较大 #263

Open GaoDongWan opened 5 months ago

GaoDongWan commented 5 months ago

对ViT-L-14-336做了微调后,单独把image encoder[vit]部分拿出来做推理,用官方给的流程转成onnx[fp16]和trt[fp16],用speed benchmark测试后发现 原生+fp16的mean耗时 = 26ms,onnx = 50ms, trt = 35ms

torch=2.2 trt=8.5.2.2

onnx和trt返回的image embedding的dtype=float32,原生的=float16

这里和官方的区别是torch版本,是torch 2对infer做了优化么,为什么原生比trt还快,还是说哪个步骤出问题了[按deployment.md完成的模型转换]?

GaoDongWan commented 5 months ago

Tesla T4 cuda=11.8 cudnn=8.6.0