Closed liao0028 closed 8 months ago
根据您这个issues,https://github.com/ysh329/OpenCL-101/issues/55,我实现了一版opencl代码在手机端的gpu上运行,并将尝试将m_tile和n_tile调整成4和8,比之前的m_tiles=8,n_tiles=4得到了优化,想问一下,还有没有其他优化手段提供一下思路。
m_tile和n_tile
m_tiles=8,n_tiles=4
你可以参考其他关于调优的issue链接,但首先,有必要检查当前的计算是否达到你期望的计算峰值和内存带宽,这个需要看看硬件的文档
根据您这个issues,https://github.com/ysh329/OpenCL-101/issues/55,我实现了一版opencl代码在手机端的gpu上运行,并将尝试将
m_tile和n_tile
调整成4和8,比之前的m_tiles=8,n_tiles=4
得到了优化,想问一下,还有没有其他优化手段提供一下思路。