ysh329 / OpenCL-101

Learn OpenCL step by step.
123 stars 31 forks source link

how to optimize opencl gemm #62

Closed liao0028 closed 3 months ago

liao0028 commented 3 months ago

根据您这个issues,https://github.com/ysh329/OpenCL-101/issues/55,我实现了一版opencl代码在手机端的gpu上运行,并将尝试将m_tile和n_tile调整成4和8,比之前的m_tiles=8,n_tiles=4得到了优化,想问一下,还有没有其他优化手段提供一下思路。

ysh329 commented 3 months ago

你可以参考其他关于调优的issue链接,但首先,有必要检查当前的计算是否达到你期望的计算峰值和内存带宽,这个需要看看硬件的文档