关于A/B阵的Layout - Githubissues

 m_A = new Matrix(m_M, m_K, "Matrix A");
 m_B = new Matrix(m_K, m_N, "Matrix B");

尽管在src/common/tester.h中，A定义的形状是(M, K)， B是（K, N)，但实际实现矩阵乘的时候都是按A（M， K）， B（N, K）的方式进行的。请问如果A(M, K)， B（K, N）的情况下还能否使用mma进行加速？cp.async和ldmatrix都只能处理连续的128bit，对于B（K，N）的情况下，很难把K方向的元素放到连续的线程中。最近看mma相关教程时的一点疑惑，希望您能帮忙解答。

Bruce-Lee-LY / cuda_hgemm

关于A/B阵的Layout #7