Open tpoisonooo opened 1 year ago
这里有 Nvidia GPU mem peak 的实现 https://github.com/Yinghan-Li/YHs_Sample/tree/master/cuda/microbenchmark
compute peak 的结果,应该没有 a_blob
输入,直接执行一个复杂的数学计算(算 pi ?)。
如果没有输入输出,将无法保证核心的运算不被驱动优化掉
那就做两次,一次输入+复杂计算+输出; 一次输入+简单加法+输出。 两次结果相减。
例如
glsl_p1_data
, 里面有buffer_ld1
和计算。测量的值包含了内存和计算,肯定比真实的 mem/ compute peak 都低很多。