Open turbo0628 opened 2 years ago
一般来说CUDA卡上的FP64性能都是很低的,除非是tesla系列的计算卡
你可以用Taichi benchmark里面的Nested SAXPY,运行plot_roofline.py简单测一下具体的计算能力。代码默认是fp32的,你可以把field里面的ti.float32改成ti.float64测一把fp64的峰值
在我的RTX3080上,fp32的性能差不多有29000 GFLOPS,fp64只有不到500 GFLOPS(理论峰值465GFLOPS,Taichi能测出来大概430 GFLOPS)。一般而言英伟达的游戏卡的fp64性能是fp32的1/32或者1/64,所以为了性能考虑要尽量避免使用f64
原来如此,感谢
一般来说CUDA卡上的FP64性能都是很低的,除非是tesla系列的计算卡
你可以用Taichi benchmark里面的Nested SAXPY,运行plot_roofline.py简单测一下具体的计算能力。代码默认是fp32的,你可以把field里面的ti.float32改成ti.float64测一把fp64的峰值
在我的RTX3080上,fp32的性能差不多有29000 GFLOPS,fp64只有不到500 GFLOPS(理论峰值465GFLOPS,Taichi能测出来大概430 GFLOPS)。一般而言英伟达的游戏卡的fp64性能是fp32的1/32或者1/64,所以为了性能考虑要尽量避免使用f64