context 多线程部署

作者你好，我在本地尝试修改你的推理类，通过 engine 创建多个 context 进行多线程推理，但是运行过程中发现速度并没有明显提升，随着线程数量的增加，单个推理的速度有很显著的下降。请问这个问题有什么解决方法呢？目前我在 2080 和 4090 显卡都尝试过部署，之前尝试多线程加载多个 ONNX 模型，但是由于显存问题，也无法同时配置多个推理类。我想请教一下这个推理库有什么办法能提高显卡的利用率呢，现在占用率维持在 10% 一下，我的模型训练大小是 72*3700 的尺寸，推理单张耗时大概在 170ms。

NagatoYuki0943 / anomalib-tensorrt-cpp

context 多线程部署 #9