Tlntin / ChatGLM2-6B-TensorRT

MIT License
90 stars 10 forks source link

关于 FastTransformer 作为 tensorRT 的插件的相关问题 #2

Closed xikakera closed 1 year ago

xikakera commented 1 year ago

您好,感谢分享! 您说的 将FastTransformer编译为tensorRT的一个插件,以实现更快的加速方案。, 我有问题想问。

我查到的资料里就是,如果使用 FastTransformer 修改整一个模型,那么在 TensorRT 可以自定义 network进行绑定。 例如 FastTransformer 里的 T5的例子就是使用2个 FastTransformer 的 Plugin 直接推理,而 TensorRT 算是连接层。

关于只使用某些算子

  1. 如果是使用Onnx加载,需要自行修改加载的network,还是可以设定为搜索后进行?如果是融合的算子,会不会很麻烦?
  2. 不是Onnx加载,那么就需要直接写TensorRT的c++代码了吧?

关于速度: 如果有一个修改完毕的 FastTransformer 的模型,直接使用 FastTransformer 会不会比作为 Plugin 加入TensorRT中更方便,速度更快? 如果是算子,加速比 Onnx -> TensorRT 明显吗?

Tlntin commented 1 year ago

关于只使用某些算子,某些算子指的是哪里的算子? 如果有一个修改完毕的 FastTransformer 的模型,直接使用 FastTransformer 会不会比作为 Plugin 加入TensorRT中更方便,速度更快?区别不大,只是形式不一样。 如果是算子,加速比 Onnx -> TensorRT 明显吗?,你说的是把FastTransformer单独编译成算子,不用TensorRT吗?这样估计应该和Onnx -> TensorRT速度差不多。