Bruce-Lee-LY / cuda_hgemm

Several optimization methods of half-precision general matrix multiplication (HGEMM) using tensor core with WMMA API and MMA PTX instruction.
MIT License
290 stars 66 forks source link

关于A/B阵的Layout #7

Closed feiyuvl closed 9 months ago

feiyuvl commented 9 months ago
 m_A = new Matrix(m_M, m_K, "Matrix A");
 m_B = new Matrix(m_K, m_N, "Matrix B");

尽管在src/common/tester.h中,A定义的形状是(M, K), B是(K, N),但实际实现矩阵乘的时候都是按A(M, K), B(N, K)的方式进行的。请问如果A(M, K), B(K, N)的情况下还能否使用mma进行加速?cp.async和ldmatrix都只能处理连续的128bit,对于B(K,N)的情况下,很难把K方向的元素放到连续的线程中。最近看mma相关教程时的一点疑惑,希望您能帮忙解答。

feiyuvl commented 9 months ago

刚看到cublas里关于tensorcore gemm的说明,确实只支持A(M, K), B(N,K)的形式