torch onnx tensorrt 推理速度和deployment.md评估效果差异较大

对ViT-L-14-336做了微调后，单独把image encoder[vit]部分拿出来做推理，用官方给的流程转成onnx[fp16]和trt[fp16]，用speed benchmark测试后发现原生+fp16的mean耗时 = 26ms，onnx = 50ms， trt = 35ms

torch=2.2 trt=8.5.2.2

onnx和trt返回的image embedding的dtype=float32，原生的=float16

这里和官方的区别是torch版本，是torch 2对infer做了优化么，为什么原生比trt还快，还是说哪个步骤出问题了[按deployment.md完成的模型转换]？

OFA-Sys / Chinese-CLIP