Closed ZhuShengchen closed 6 months ago
我使用了您提供的cutlass depthwise 做加速,在输入为(1536,90,180)上似乎比torch 的depthwise conv还要慢2-4倍,显卡是A100,驱动是11.8,请问是哪方面的问题?
batch size非常小的时候cutlass depthwise速度不如nn.Conv2d。我会测一下不同batch size的速度对比。一会吃完饭就测。
我使用了您提供的cutlass depthwise 做加速,在输入为(1536,90,180)上似乎比torch 的depthwise conv还要慢2-4倍,显卡是A100,驱动是11.8,请问是哪方面的问题?