Open kjcx100 opened 2 years ago
rk1109跑一个类ssd的模型,uint8量化后才300多k,rk1109的npu跑一次要4s,因为图中几个层不支持,导致会在npu和cpu层之间来回切,导致耗时过大,有什么优化方案吗
请提供下 export TG_DEBUG_TIME=1 的 log 信息,另外这个 SSD 模型是 caffe-ssd 吗?如果是 PyTorch 的 SSD,建议单独实现 SSD 后处理
rk1109跑一个类ssd的模型,uint8量化后才300多k,rk1109的npu跑一次要4s,因为图中几个层不支持,导致会在npu和cpu层之间来回切,导致耗时过大,有什么优化方案吗