Closed feiyuvl closed 9 months ago
m_A = new Matrix(m_M, m_K, "Matrix A"); m_B = new Matrix(m_K, m_N, "Matrix B");
尽管在src/common/tester.h中,A定义的形状是(M, K), B是(K, N),但实际实现矩阵乘的时候都是按A(M, K), B(N, K)的方式进行的。请问如果A(M, K), B(K, N)的情况下还能否使用mma进行加速?cp.async和ldmatrix都只能处理连续的128bit,对于B(K,N)的情况下,很难把K方向的元素放到连续的线程中。最近看mma相关教程时的一点疑惑,希望您能帮忙解答。
src/common/tester.h
刚看到cublas里关于tensorcore gemm的说明,确实只支持A(M, K), B(N,K)的形式
尽管在
src/common/tester.h
中,A定义的形状是(M, K), B是(K, N),但实际实现矩阵乘的时候都是按A(M, K), B(N, K)的方式进行的。请问如果A(M, K), B(K, N)的情况下还能否使用mma进行加速?cp.async和ldmatrix都只能处理连续的128bit,对于B(K,N)的情况下,很难把K方向的元素放到连续的线程中。最近看mma相关教程时的一点疑惑,希望您能帮忙解答。