Open godweiyang opened 3 years ago
https://godweiyang.com/2021/03/21/torch-cpp-cuda-2/
在上一篇教程中,我们实现了一个自定义的CUDA算子add2,用来实现两个Tensor的相加。然后用PyTorch调用这个算子,分析对比了一下和PyTorch原生加法的速度差异,并且详细解释了线程同步给统计时间带来的影响。 上一篇教程:htt
https://godweiyang.com/2021/03/21/torch-cpp-cuda-2/
在上一篇教程中,我们实现了一个自定义的CUDA算子add2,用来实现两个Tensor的相加。然后用PyTorch调用这个算子,分析对比了一下和PyTorch原生加法的速度差异,并且详细解释了线程同步给统计时间带来的影响。 上一篇教程:htt