咨询：Share Mem bank Confict.

Hi, 我想咨询下，Share Mem to Register 出现mem bank confict的解决方案。尤其是Permute方法。对于一个KxN 的矩阵B，K=16，N=16. 其share mem 数据排布如下： data_x其大小2byte

data0，data1，data2，...,data8,| ... data15 data0，data1，data2，...,data8,| ... data15 data0，data1，data2，...,data8,| ... data15 data0，data1，data2，...,data8,| ... data15 ... ------------------------------------------------------------ 8 data0，data1，data2，...,data8,| ... data15 data0，data1，data2，...,data8,| ... data15 data0，data1，data2，...,data8,| ... data15 data0，data1，data2，...,data8,| ... data15 ------------------------------------------------------------ 16

我使用 ldmatrix.sync.aligned.x2.trans.m8n8.shared.b16 {%0, %1}, [%2];\n load数据其shape (16, 8), 然后出现了2个 Bank Confict. 想问下，这里如何解决其 Bank Confict.

如能讨论不胜感激。

Bruce-Lee-LY / cuda_hgemm

咨询：Share Mem bank Confict. #4