Closed luliyucoordinate closed 5 months ago
我注意到这里的B是T的layout,为什么这样呢?我采用N的layout,如下:
采用padding 16的方式,然后B reg采用row-major。然后这种做法在wmma_async_stage3.cu代码A100下测试,会有10%的性能损失。这是为什么?这里面有什么说法吗🤣
我注意到这里的B是T的layout,为什么这样呢?我采用N的layout,如下:
采用padding 16的方式,然后B reg采用row-major。然后这种做法在wmma_async_stage3.cu代码A100下测试,会有10%的性能损失。这是为什么?这里面有什么说法吗🤣