关于 FastTransformer 作为 tensorRT 的插件的相关问题

您好，感谢分享！您说的 将FastTransformer编译为tensorRT的一个插件，以实现更快的加速方案。，我有问题想问。

我查到的资料里就是，如果使用 FastTransformer 修改整一个模型，那么在 TensorRT 可以自定义 network进行绑定。例如 FastTransformer 里的 T5的例子就是使用2个 FastTransformer 的 Plugin 直接推理，而 TensorRT 算是连接层。

关于只使用某些算子

如果是使用Onnx加载，需要自行修改加载的network，还是可以设定为搜索后进行？如果是融合的算子，会不会很麻烦？
不是Onnx加载，那么就需要直接写TensorRT的c++代码了吧？

关于速度：如果有一个修改完毕的 FastTransformer 的模型，直接使用 FastTransformer 会不会比作为 Plugin 加入TensorRT中更方便，速度更快？如果是算子，加速比 Onnx -> TensorRT 明显吗？

Tlntin / ChatGLM2-6B-TensorRT

关于 FastTransformer 作为 tensorRT 的插件的相关问题 #2