Closed yeyupiaoling closed 1 year ago
您好,我们已经收到了您的问题,会安排技术人员尽快解答您的问题,请耐心等待。请您再次检查是否提供了清晰的问题描述、复现代码、环境&版本、报错信息等。同时,您也可以通过查看官网API文档、常见问题、历史Issue、AI社区来寻求解答。祝您生活愉快~
Hi! We've received your issue and please be patient to get responded. We will arrange technicians to answer your questions as soon as possible. Please make sure that you have posted enough message to demo your request. You may also check out the API,FAQ,Github Issue and AI community to get the answer.Have a nice day!
自动混合精度不一定能够提速,可以先参考适用场景说明进行排查:https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/performance_improving/amp_cn.html#shiyongchangjingshuoming
@Caozhou1995 有挺多的 matmul、conv 了,应该有较大的提升才对。就算速度增加,也不至于降这么多。
----------------------------------------------------------------Operator Summary----------------------------------------------------------------
Time unit: ms
---------------------------------------------------- ------ ---------------------------------------- ----------------------------------------
Name Calls CPU Total / Avg / Max / Min / Ratio(%) GPU Total / Avg / Max / Min / Ratio(%)
---------------------------------------------------- ------ ---------------------------------------- ----------------------------------------
-----------------------------------------------------------Thread: All threads merged-----------------------------------------------------------
matmul_v2_grad grad_node 2552 174.52 / 0.07 / 0.45 / 0.02 / 11.05 214.61 / 0.08 / 0.43 / 0.01 / 26.50
infer_shape 2552 5.70 / 0.00 / 0.03 / 0.00 / 3.26 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 2552 132.38 / 0.05 / 0.44 / 0.01 / 75.85 203.81 / 0.08 / 0.42 / 0.01 / 94.97
volta_sgemm_128x128_tn 53 - / - / - / - / - 5.22 / 0.10 / 0.19 / 0.08 / 2.56
MEMSET 1363 - / - / - / - / - 0.98 / 0.00 / 0.00 / 0.00 / 0.48
volta_sgemm_128x64_nt 478 - / - / - / - / - 39.09 / 0.08 / 0.19 / 0.07 / 19.18
volta_sgemm_64x64_tn 207 - / - / - / - / - 9.62 / 0.05 / 0.18 / 0.01 / 4.72
volta_sgemm_128x64_tn 984 - / - / - / - / - 54.62 / 0.06 / 0.21 / 0.02 / 26.80
volta_sgemm_32x128_nt 792 - / - / - / - / - 14.66 / 0.02 / 0.03 / 0.01 / 7.19
void splitKreduce_kernel<32, 16, int, float, ... 798 - / - / - / - / - 2.89 / 0.00 / 0.01 / 0.00 / 1.42
volta_sgemm_32x32_sliced1x4_nt 528 - / - / - / - / - 4.15 / 0.01 / 0.02 / 0.01 / 2.03
volta_sgemm_32x32_sliced1x4_nn 8448 - / - / - / - / - 45.68 / 0.01 / 0.02 / 0.00 / 22.41
volta_sgemm_64x64_nt 682 - / - / - / - / - 6.78 / 0.01 / 0.03 / 0.01 / 3.33
void phi::funcs::ReduceHigherDimKernel<float,... 132 - / - / - / - / - 0.42 / 0.00 / 0.01 / 0.00 / 0.21
volta_sgemm_64x64_nn 132 - / - / - / - / - 1.46 / 0.01 / 0.01 / 0.01 / 0.72
volta_sgemm_32x32_sliced1x4_tn 516 - / - / - / - / - 8.47 / 0.02 / 0.04 / 0.01 / 4.15
void gemmSN_NN_kernel<float, 256, 4, 2, 8, 5,... 72 - / - / - / - / - 0.37 / 0.01 / 0.01 / 0.00 / 0.18
void gemmSN_TN_kernel<float, 128, 16, 2, 4, 1... 72 - / - / - / - / - 0.53 / 0.01 / 0.01 / 0.00 / 0.26
volta_sgemm_32x128_tn 66 - / - / - / - / - 1.31 / 0.02 / 0.02 / 0.02 / 0.64
volta_sgemm_128x32_tn 48 - / - / - / - / - 1.01 / 0.02 / 0.02 / 0.02 / 0.50
void gemmSN_NN_kernel<float, 256, 4, 2, 8, 4,... 60 - / - / - / - / - 0.33 / 0.01 / 0.01 / 0.00 / 0.16
void gemmSN_TN_kernel<float, 128, 16, 2, 4, 8... 60 - / - / - / - / - 0.39 / 0.01 / 0.01 / 0.00 / 0.19
volta_sgemm_64x32_sliced1x4_tn 18 - / - / - / - / - 0.29 / 0.02 / 0.02 / 0.02 / 0.14
volta_sgemm_128x128_nt 72 - / - / - / - / - 5.55 / 0.08 / 0.08 / 0.07 / 2.72
void axpy_kernel_val<float, float>(cublasAxpyPa... 1904 - / - / - / - / - 10.79 / 0.01 / 0.03 / 0.00 / 5.03
conv2d_grad grad_node 286 92.96 / 0.33 / 1.21 / 0.15 / 5.89 159.31 / 0.56 / 11.54 / 0.07 / 19.67
infer_shape 286 0.23 / 0.00 / 0.00 / 0.00 / 0.24 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 286 88.88 / 0.31 / 1.20 / 0.13 / 95.60 159.20 / 0.56 / 11.53 / 0.07 / 99.93
cask_cudnn::computeWgradSplitKOffsetsKernel(c... 22 - / - / - / - / - 0.05 / 0.00 / 0.00 / 0.00 / 0.03
cask_cudnn::computeWgradBOffsetsKernel(cask_c... 22 - / - / - / - / - 0.05 / 0.00 / 0.00 / 0.00 / 0.03
MEMSET 308 - / - / - / - / - 0.69 / 0.00 / 0.01 / 0.00 / 0.44
turing_scudnn_128x64_stridedB_splitK_xregs_la... 11 - / - / - / - / - 7.32 / 0.67 / 0.73 / 0.64 / 4.60
void fft2d_r2c_32x32<float, false, 1u, false>... 11 - / - / - / - / - 7.57 / 0.69 / 0.71 / 0.67 / 4.75
void fft2d_r2c_32x32<float, true, 0u, false>(... 88 - / - / - / - / - 7.71 / 0.09 / 0.10 / 0.07 / 4.84
volta_gcgemm_32x32_nt 88 - / - / - / - / - 70.40 / 0.80 / 0.95 / 0.72 / 44.22
void fft2d_c2r_32x32<float, false, false, 0u,... 88 - / - / - / - / - 9.66 / 0.11 / 0.14 / 0.05 / 6.07
turing_scudnn_128x128_stridedB_splitK_xregs_l... 11 - / - / - / - / - 18.59 / 1.69 / 1.81 / 1.62 / 11.68
void cudnn::ops::scalePackedTensor_kernel<flo... 132 - / - / - / - / - 0.58 / 0.00 / 0.01 / 0.00 / 0.36
void cudnn::detail::dgrad2d_alg1_1<float, 0, ... 132 - / - / - / - / - 18.25 / 0.14 / 0.20 / 0.10 / 11.46
void wgrad_alg0_engine<float, 128, 6, 7, 3, 3... 12 - / - / - / - / - 0.83 / 0.07 / 0.07 / 0.07 / 0.52
void cask_cudnn::computeOffsetsKernel<true, f... 132 - / - / - / - / - 0.29 / 0.00 / 0.00 / 0.00 / 0.18
cask_cudnn::computeBOffsetsKernel(cask_cudnn:... 132 - / - / - / - / - 0.28 / 0.00 / 0.00 / 0.00 / 0.18
volta_scudnn_128x64_stridedB_small_nn_v1 84 - / - / - / - / - 2.69 / 0.03 / 0.03 / 0.03 / 1.69
void wgrad_alg0_engine<float, 128, 6, 8, 3, 3... 252 - / - / - / - / - 12.65 / 0.05 / 0.08 / 0.03 / 7.95
volta_scudnn_128x64_stridedB_interior_nn_v1 48 - / - / - / - / - 1.59 / 0.03 / 0.04 / 0.03 / 1.00
void axpy_kernel_val<float, float>(cublasAxpyPa... 16 - / - / - / - / - 0.11 / 0.01 / 0.01 / 0.00 / 0.07
matmul_v2 2552 154.44 / 0.06 / 0.56 / 0.03 / 9.78 127.45 / 0.05 / 0.40 / 0.00 / 15.74
infer_shape 2552 6.52 / 0.00 / 0.03 / 0.00 / 4.22 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 2552 109.31 / 0.04 / 0.54 / 0.02 / 70.78 127.45 / 0.05 / 0.40 / 0.00 / 100.00
volta_sgemm_128x64_nn 489 - / - / - / - / - 40.34 / 0.08 / 0.18 / 0.02 / 31.65
volta_sgemm_128x32_nn 588 - / - / - / - / - 12.81 / 0.02 / 0.05 / 0.02 / 10.05
void splitKreduce_kernel<32, 16, int, float, ... 368 - / - / - / - / - 1.93 / 0.01 / 0.01 / 0.00 / 1.52
MEMSET 271 - / - / - / - / - 0.19 / 0.00 / 0.00 / 0.00 / 0.15
volta_sgemm_32x32_sliced1x4_nn 648 - / - / - / - / - 8.78 / 0.01 / 0.04 / 0.01 / 6.89
void gemmSN_NN_kernel<float, 256, 4, 2, 8, 5,... 72 - / - / - / - / - 0.31 / 0.00 / 0.01 / 0.00 / 0.24
void gemmSN_TN_kernel<float, 128, 16, 2, 4, 1... 72 - / - / - / - / - 0.53 / 0.01 / 0.01 / 0.00 / 0.42
volta_sgemm_64x64_nn 217 - / - / - / - / - 9.64 / 0.04 / 0.22 / 0.01 / 7.56
volta_sgemm_32x32_sliced1x4_tn 8448 - / - / - / - / - 45.18 / 0.01 / 0.02 / 0.00 / 35.45
volta_sgemm_64x64_tn 132 - / - / - / - / - 1.53 / 0.01 / 0.02 / 0.01 / 1.20
volta_sgemm_64x32_sliced1x4_nn 30 - / - / - / - / - 0.44 / 0.01 / 0.02 / 0.01 / 0.35
void gemmSN_NN_kernel<float, 256, 4, 2, 8, 4,... 60 - / - / - / - / - 0.31 / 0.01 / 0.01 / 0.00 / 0.24
void gemmSN_TN_kernel<float, 128, 16, 2, 4, 8... 60 - / - / - / - / - 0.39 / 0.01 / 0.01 / 0.00 / 0.30
volta_sgemm_128x128_nn 52 - / - / - / - / - 5.07 / 0.10 / 0.20 / 0.09 / 3.98
grad_node_creation 2552 14.79 / 0.01 / 0.11 / 0.00 / 9.58 0.00 / 0.00 / 0.00 / 0.00 / 0.00
elementwise_add_grad grad_node 3344 92.65 / 0.03 / 0.08 / 0.01 / 5.87 30.48 / 0.01 / 0.14 / 0.00 / 3.76
infer_shape 3344 2.18 / 0.00 / 0.00 / 0.00 / 2.35 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 3344 50.62 / 0.02 / 0.05 / 0.00 / 54.63 26.34 / 0.01 / 0.14 / 0.00 / 86.40
void phi::funcs::ReduceAnyKernel<float, float... 682 - / - / - / - / - 5.45 / 0.01 / 0.14 / 0.00 / 20.69
void phi::funcs::ReduceHigherDimKernel<float,... 3256 - / - / - / - / - 18.13 / 0.01 / 0.05 / 0.00 / 68.84
void phi::SimpleElemwiseAddGradCUDAKernel<flo... 22 - / - / - / - / - 0.05 / 0.00 / 0.00 / 0.00 / 0.18
void axpy_kernel_val<float, float>(cublasAxpyPa... 1716 - / - / - / - / - 4.15 / 0.00 / 0.01 / 0.00 / 13.60
conv2d 286 78.96 / 0.28 / 3.15 / 0.13 / 5.00 28.44 / 0.10 / 1.65 / 0.03 / 3.51
infer_shape 286 0.95 / 0.00 / 0.01 / 0.00 / 1.20 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 286 71.36 / 0.25 / 3.11 / 0.11 / 90.37 28.44 / 0.10 / 1.65 / 0.03 / 100.00
void cudnn::cnn::kern_precompute_indices<fals... 84 - / - / - / - / - 0.18 / 0.00 / 0.01 / 0.00 / 0.63
void precomputed_convolve_sgemm<float, 1024, ... 84 - / - / - / - / - 2.42 / 0.03 / 0.03 / 0.03 / 8.52
void cask_cudnn::computeOffsetsKernel<false, ... 178 - / - / - / - / - 0.41 / 0.00 / 0.00 / 0.00 / 1.43
volta_scudnn_128x64_relu_interior_nn_v1 143 - / - / - / - / - 22.24 / 0.16 / 1.65 / 0.03 / 78.20
volta_scudnn_128x64_relu_small_nn_v1 11 - / - / - / - / - 1.73 / 0.16 / 0.17 / 0.15 / 6.10
void cudnn::ops::nchwToNhwcKernel<float, floa... 24 - / - / - / - / - 0.08 / 0.00 / 0.00 / 0.00 / 0.30
volta_scudnn_128x32_sliced1x4_ldg4_relu_exp_s... 24 - / - / - / - / - 0.47 / 0.02 / 0.02 / 0.02 / 1.66
void cudnn::ops::nhwcToNchwKernel<float, floa... 24 - / - / - / - / - 0.09 / 0.00 / 0.00 / 0.00 / 0.30
void implicit_convolve_sgemm<float, float, 10... 24 - / - / - / - / - 0.81 / 0.03 / 0.03 / 0.03 / 2.85
grad_node_creation 286 2.27 / 0.01 / 0.02 / 0.01 / 2.88 0.00 / 0.00 / 0.00 / 0.00 / 0.00
warpctc 11 29.56 / 2.69 / 4.30 / 2.42 / 1.87 24.97 / 2.27 / 2.37 / 2.18 / 3.08
infer_shape 11 0.05 / 0.00 / 0.01 / 0.00 / 0.16 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 29.24 / 2.66 / 4.27 / 2.39 / 98.91 24.97 / 2.27 / 2.37 / 2.18 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 22 - / - / - / - / - 0.56 / 0.03 / 0.03 / 0.02 / 2.26
void paddle::operators::math::SequencePadding... 11 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 0.12
MEMCPY_HtoD 55 - / - / - / - / - 0.04 / 0.00 / 0.00 / 0.00 / 0.16
MEMCPY_DtoD 11 - / - / - / - / - 0.58 / 0.05 / 0.06 / 0.05 / 2.33
void reduce_rows<128, ctc_helper::identity<fl... 11 - / - / - / - / - 0.34 / 0.03 / 0.03 / 0.03 / 1.37
void prepare_stable_SM_kernel<float, 1, ctc_h... 11 - / - / - / - / - 0.51 / 0.05 / 0.05 / 0.04 / 2.04
void reduce_rows<128, ctc_helper::exponential... 11 - / - / - / - / - 0.35 / 0.03 / 0.03 / 0.03 / 1.40
void compute_probs_kernel<float, 1, ctc_helpe... 11 - / - / - / - / - 0.52 / 0.05 / 0.05 / 0.05 / 2.09
void truncate_probs_kernel<float, 1>(float*, ... 11 - / - / - / - / - 0.38 / 0.03 / 0.04 / 0.03 / 1.51
void compute_alpha_kernel<float, 32, 1>(float... 11 - / - / - / - / - 0.66 / 0.06 / 0.07 / 0.06 / 2.64
void compute_betas_and_grad_kernel<float, 32,... 11 - / - / - / - / - 20.36 / 1.85 / 1.94 / 1.76 / 81.53
MEMCPY_DtoH 11 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 0.05
grad_node_creation 11 0.13 / 0.01 / 0.02 / 0.01 / 0.42 0.00 / 0.00 / 0.00 / 0.00 / 0.00
elementwise_add 3366 98.17 / 0.03 / 0.17 / 0.02 / 6.22 23.78 / 0.01 / 0.26 / 0.00 / 2.94
infer_shape 3366 5.05 / 0.00 / 0.02 / 0.00 / 5.15 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 3366 41.92 / 0.01 / 0.12 / 0.01 / 42.70 23.78 / 0.01 / 0.26 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<fl... 3366 - / - / - / - / - 23.78 / 0.01 / 0.26 / 0.00 / 100.00
grad_node_creation 3366 20.19 / 0.01 / 0.15 / 0.00 / 20.57 0.00 / 0.00 / 0.00 / 0.00 / 0.00
layer_norm_grad grad_node 1023 48.30 / 0.05 / 0.10 / 0.03 / 3.06 21.63 / 0.02 / 0.04 / 0.01 / 2.67
infer_shape 1023 1.42 / 0.00 / 0.02 / 0.00 / 2.94 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1023 18.30 / 0.02 / 0.05 / 0.01 / 37.89 15.03 / 0.01 / 0.03 / 0.01 / 69.47
void paddle::operators::LayerNormBackwardPart... 1023 - / - / - / - / - 5.55 / 0.01 / 0.02 / 0.00 / 36.94
void paddle::operators::LayerNormBackwardSumG... 1023 - / - / - / - / - 2.68 / 0.00 / 0.01 / 0.00 / 17.84
void paddle::operators::LayerNormBackwardComp... 1023 - / - / - / - / - 6.79 / 0.01 / 0.02 / 0.00 / 45.22
void axpy_kernel_val<float, float>(cublasAxpyPa... 2214 - / - / - / - / - 6.60 / 0.00 / 0.01 / 0.00 / 30.53
adam 1860 34.68 / 0.02 / 0.08 / 0.02 / 2.20 16.50 / 0.01 / 0.07 / 0.00 / 2.04
infer_shape 1860 2.42 / 0.00 / 0.02 / 0.00 / 6.99 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1860 19.81 / 0.01 / 0.05 / 0.01 / 57.13 16.50 / 0.01 / 0.07 / 0.00 / 100.00
void paddle::operators::AdamKernelMEM<float, ... 1860 - / - / - / - / - 12.62 / 0.01 / 0.07 / 0.00 / 76.50
void paddle::operators::UpdateBetaPow<float>(... 1860 - / - / - / - / - 3.88 / 0.00 / 0.01 / 0.00 / 23.50
grad_node_creation 1860 0.11 / 0.00 / 0.00 / 0.00 / 0.33 0.00 / 0.00 / 0.00 / 0.00 / 0.00
dropout 1386 44.06 / 0.03 / 0.08 / 0.02 / 2.79 11.99 / 0.01 / 0.04 / 0.00 / 1.48
infer_shape 1386 5.17 / 0.00 / 0.03 / 0.00 / 11.74 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1386 19.07 / 0.01 / 0.04 / 0.01 / 43.29 11.99 / 0.01 / 0.04 / 0.00 / 100.00
void paddle::operators::VectorizedRandomGener... 1386 - / - / - / - / - 11.99 / 0.01 / 0.04 / 0.00 / 100.00
grad_node_creation 1386 7.02 / 0.01 / 0.04 / 0.00 / 15.92 0.00 / 0.00 / 0.00 / 0.00 / 0.00
dropout_grad grad_node 1353 25.24 / 0.02 / 0.06 / 0.01 / 1.60 11.28 / 0.01 / 0.04 / 0.00 / 1.39
infer_shape 1353 0.90 / 0.00 / 0.02 / 0.00 / 3.56 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1353 13.90 / 0.01 / 0.04 / 0.01 / 55.07 11.28 / 0.01 / 0.04 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 1353 - / - / - / - / - 11.28 / 0.01 / 0.04 / 0.00 / 100.00
swish_grad grad_node 396 5.93 / 0.01 / 0.03 / 0.01 / 0.38 10.98 / 0.03 / 0.05 / 0.00 / 1.36
infer_shape 396 0.17 / 0.00 / 0.00 / 0.00 / 2.93 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 396 2.64 / 0.01 / 0.02 / 0.01 / 44.56 10.98 / 0.03 / 0.05 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 396 - / - / - / - / - 10.98 / 0.03 / 0.05 / 0.00 / 100.00
set_value 731 34.20 / 0.05 / 0.11 / 0.03 / 2.17 10.24 / 0.01 / 0.03 / 0.01 / 1.26
infer_shape 731 2.23 / 0.00 / 0.02 / 0.00 / 6.51 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 731 24.60 / 0.03 / 0.09 / 0.02 / 71.95 10.24 / 0.01 / 0.03 / 0.01 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 352 - / - / - / - / - 0.70 / 0.00 / 0.00 / 0.00 / 6.83
void Eigen::internal::EigenMetaKernel<Eigen::... 352 - / - / - / - / - 0.82 / 0.00 / 0.01 / 0.00 / 7.97
void phi::funcs::VectorizedBroadcastKernel<in... 176 - / - / - / - / - 0.40 / 0.00 / 0.00 / 0.00 / 3.93
void Eigen::internal::EigenMetaKernel<Eigen::... 176 - / - / - / - / - 0.39 / 0.00 / 0.00 / 0.00 / 3.84
void Eigen::internal::EigenMetaKernel<Eigen::... 1110 - / - / - / - / - 2.35 / 0.00 / 0.01 / 0.00 / 22.92
void Eigen::internal::EigenMetaKernel<Eigen::... 1110 - / - / - / - / - 2.53 / 0.00 / 0.01 / 0.00 / 24.68
void phi::funcs::VectorizedBroadcastKernel<bo... 555 - / - / - / - / - 1.30 / 0.00 / 0.00 / 0.00 / 12.72
void Eigen::internal::EigenMetaKernel<Eigen::... 555 - / - / - / - / - 1.34 / 0.00 / 0.01 / 0.00 / 13.12
grad_node_creation 731 0.07 / 0.00 / 0.00 / 0.00 / 0.21 0.00 / 0.00 / 0.00 / 0.00 / 0.00
depthwise_conv2d_grad grad_node 132 5.29 / 0.04 / 0.05 / 0.03 / 0.34 9.04 / 0.07 / 0.08 / 0.06 / 1.12
infer_shape 132 0.11 / 0.00 / 0.00 / 0.00 / 2.15 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 3.61 / 0.03 / 0.04 / 0.02 / 68.25 9.04 / 0.07 / 0.08 / 0.06 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 264 - / - / - / - / - 0.69 / 0.00 / 0.00 / 0.00 / 7.58
void paddle::operators::math::KernelDepthwise... 132 - / - / - / - / - 1.81 / 0.01 / 0.02 / 0.01 / 20.00
void paddle::operators::math::KernelDepthwise... 132 - / - / - / - / - 6.54 / 0.05 / 0.06 / 0.04 / 72.42
transpose2_grad grad_node 1738 25.85 / 0.01 / 0.04 / 0.01 / 1.64 8.06 / 0.00 / 0.07 / 0.00 / 0.99
infer_shape 1738 1.21 / 0.00 / 0.00 / 0.00 / 4.69 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1738 13.80 / 0.01 / 0.04 / 0.01 / 53.40 8.06 / 0.00 / 0.07 / 0.00 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 1199 - / - / - / - / - 5.34 / 0.00 / 0.07 / 0.00 / 66.31
void paddle::operators::TilingSwapDim1And2<fl... 528 - / - / - / - / - 2.13 / 0.00 / 0.01 / 0.00 / 26.40
void Eigen::internal::EigenMetaKernel<Eigen::... 11 - / - / - / - / - 0.59 / 0.05 / 0.06 / 0.05 / 7.29
layer_norm 1023 37.99 / 0.04 / 0.66 / 0.03 / 2.41 7.74 / 0.01 / 0.02 / 0.01 / 0.96
infer_shape 1023 1.98 / 0.00 / 0.02 / 0.00 / 5.22 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1023 14.32 / 0.01 / 0.64 / 0.01 / 37.70 7.74 / 0.01 / 0.02 / 0.01 / 100.00
void paddle::operators::LayerNormForward<floa... 1023 - / - / - / - / - 7.74 / 0.01 / 0.02 / 0.01 / 100.00
grad_node_creation 1023 8.75 / 0.01 / 0.08 / 0.01 / 23.02 0.00 / 0.00 / 0.00 / 0.00 / 0.00
scale 2531 49.17 / 0.02 / 0.17 / 0.01 / 3.12 7.61 / 0.00 / 0.02 / 0.00 / 0.94
infer_shape 2531 5.61 / 0.00 / 0.03 / 0.00 / 11.40 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 2531 22.89 / 0.01 / 0.13 / 0.01 / 46.54 7.60 / 0.00 / 0.02 / 0.00 / 99.89
void phi::funcs::VectorizedElementwiseKernel<... 2520 - / - / - / - / - 7.57 / 0.00 / 0.02 / 0.00 / 99.70
void phi::funcs::VectorizedElementwiseKernel<... 11 - / - / - / - / - 0.02 / 0.00 / 0.00 / 0.00 / 0.30
grad_node_creation 2531 3.76 / 0.00 / 0.08 / 0.00 / 7.65 0.00 / 0.00 / 0.00 / 0.00 / 0.00
GpuMemcpySync:CUDAPinned->GPU 11 0.16 / 0.01 / 0.02 / 0.01 / 0.32 0.01 / 0.00 / 0.00 / 0.00 / 0.11
MEMCPY_HtoD 11 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 100.00
swish 396 9.68 / 0.02 / 0.05 / 0.02 / 0.61 7.57 / 0.02 / 0.04 / 0.00 / 0.93
infer_shape 396 0.16 / 0.00 / 0.00 / 0.00 / 1.63 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 396 4.39 / 0.01 / 0.03 / 0.01 / 45.34 7.57 / 0.02 / 0.04 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 396 - / - / - / - / - 7.57 / 0.02 / 0.04 / 0.00 / 100.00
grad_node_creation 396 1.85 / 0.00 / 0.01 / 0.00 / 19.11 0.00 / 0.00 / 0.00 / 0.00 / 0.00
transpose2 1738 42.41 / 0.02 / 0.16 / 0.02 / 2.69 7.48 / 0.00 / 0.07 / 0.00 / 0.92
infer_shape 1738 2.36 / 0.00 / 0.01 / 0.00 / 5.56 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1738 19.58 / 0.01 / 0.07 / 0.01 / 46.17 7.48 / 0.00 / 0.07 / 0.00 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 11 - / - / - / - / - 0.57 / 0.05 / 0.06 / 0.05 / 7.59
void Eigen::internal::EigenMetaKernel<Eigen::... 1199 - / - / - / - / - 4.73 / 0.00 / 0.07 / 0.00 / 63.27
void paddle::operators::TilingSwapDim1And2<fl... 528 - / - / - / - / - 2.18 / 0.00 / 0.01 / 0.00 / 29.14
grad_node_creation 1738 7.20 / 0.00 / 0.14 / 0.00 / 16.99 0.00 / 0.00 / 0.00 / 0.00 / 0.00
elementwise_mul 2058 49.33 / 0.02 / 0.58 / 0.02 / 3.13 6.96 / 0.00 / 0.02 / 0.00 / 0.86
infer_shape 2058 2.96 / 0.00 / 0.00 / 0.00 / 5.99 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 2058 26.18 / 0.01 / 0.56 / 0.01 / 53.06 6.96 / 0.00 / 0.02 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<fl... 2058 - / - / - / - / - 6.96 / 0.00 / 0.02 / 0.00 / 100.00
grad_node_creation 2058 1.27 / 0.00 / 0.02 / 0.00 / 2.57 0.00 / 0.00 / 0.00 / 0.00 / 0.00
squared_l2_norm 1860 33.51 / 0.02 / 2.03 / 0.01 / 2.12 6.72 / 0.00 / 0.01 / 0.00 / 0.83
infer_shape 1860 0.60 / 0.00 / 0.00 / 0.00 / 1.79 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1860 25.49 / 0.01 / 2.03 / 0.01 / 76.08 6.72 / 0.00 / 0.01 / 0.00 / 100.00
void cub::DeviceReduceSingleTileKernel<cub::D... 1263 - / - / - / - / - 3.08 / 0.00 / 0.01 / 0.00 / 45.88
void cub::DeviceReduceKernel<cub::DeviceReduc... 597 - / - / - / - / - 2.39 / 0.00 / 0.01 / 0.00 / 35.54
void cub::DeviceReduceSingleTileKernel<cub::D... 597 - / - / - / - / - 1.25 / 0.00 / 0.00 / 0.00 / 18.58
grad_node_creation 1860 0.11 / 0.00 / 0.00 / 0.00 / 0.33 0.00 / 0.00 / 0.00 / 0.00 / 0.00
sum 1866 28.00 / 0.02 / 0.85 / 0.01 / 1.77 6.38 / 0.00 / 0.09 / 0.00 / 0.79
infer_shape 1866 1.97 / 0.00 / 0.16 / 0.00 / 7.05 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1866 14.44 / 0.01 / 0.18 / 0.01 / 51.57 6.38 / 0.00 / 0.09 / 0.00 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 1860 - / - / - / - / - 6.10 / 0.00 / 0.03 / 0.00 / 95.52
void Eigen::internal::EigenMetaKernel<Eigen::... 6 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 0.20
void phi::SumArrayCUDAKernel<float>(float**, ... 6 - / - / - / - / - 0.27 / 0.04 / 0.09 / 0.00 / 4.20
grad_node_creation 1866 0.10 / 0.00 / 0.00 / 0.00 / 0.34 0.00 / 0.00 / 0.00 / 0.00 / 0.00
where_grad grad_node 814 15.86 / 0.02 / 0.05 / 0.01 / 1.00 5.24 / 0.01 / 0.02 / 0.00 / 0.65
infer_shape 814 0.65 / 0.00 / 0.00 / 0.00 / 4.13 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 814 5.94 / 0.01 / 0.03 / 0.01 / 37.42 5.24 / 0.01 / 0.02 / 0.00 / 100.00
void phi::WhereGradCUDAKernel<float>(int, flo... 814 - / - / - / - / - 5.24 / 0.01 / 0.02 / 0.00 / 100.00
relu_grad grad_node 88 1.28 / 0.01 / 0.02 / 0.01 / 0.08 5.16 / 0.06 / 0.38 / 0.00 / 0.64
infer_shape 88 0.04 / 0.00 / 0.00 / 0.00 / 2.92 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 88 0.58 / 0.01 / 0.01 / 0.00 / 45.13 5.16 / 0.06 / 0.38 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 88 - / - / - / - / - 5.16 / 0.06 / 0.38 / 0.00 / 100.00
expand_v2 957 22.07 / 0.02 / 0.05 / 0.02 / 1.40 4.61 / 0.00 / 0.01 / 0.00 / 0.57
infer_shape 957 2.69 / 0.00 / 0.02 / 0.00 / 12.20 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 957 11.47 / 0.01 / 0.04 / 0.01 / 51.99 4.61 / 0.00 / 0.01 / 0.00 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 110 - / - / - / - / - 0.32 / 0.00 / 0.01 / 0.00 / 6.96
void Eigen::internal::EigenMetaKernel<Eigen::... 22 - / - / - / - / - 0.05 / 0.00 / 0.00 / 0.00 / 1.04
void Eigen::internal::EigenMetaKernel<Eigen::... 528 - / - / - / - / - 2.66 / 0.01 / 0.01 / 0.00 / 57.55
void Eigen::internal::EigenMetaKernel<Eigen::... 33 - / - / - / - / - 0.09 / 0.00 / 0.00 / 0.00 / 1.85
void Eigen::internal::EigenMetaKernel<Eigen::... 264 - / - / - / - / - 1.50 / 0.01 / 0.01 / 0.01 / 32.60
grad_node_creation 957 0.10 / 0.00 / 0.00 / 0.00 / 0.46 0.00 / 0.00 / 0.00 / 0.00 / 0.00
relu 88 2.29 / 0.03 / 0.06 / 0.02 / 0.15 3.53 / 0.04 / 0.26 / 0.00 / 0.44
infer_shape 88 0.04 / 0.00 / 0.00 / 0.00 / 1.66 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 88 0.99 / 0.01 / 0.02 / 0.01 / 43.19 3.53 / 0.04 / 0.26 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 88 - / - / - / - / - 3.53 / 0.04 / 0.26 / 0.00 / 100.00
grad_node_creation 88 0.51 / 0.01 / 0.01 / 0.00 / 22.15 0.00 / 0.00 / 0.00 / 0.00 / 0.00
where 924 24.03 / 0.03 / 0.07 / 0.02 / 1.52 2.96 / 0.00 / 0.02 / 0.00 / 0.37
infer_shape 924 2.09 / 0.00 / 0.00 / 0.00 / 8.71 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 924 8.94 / 0.01 / 0.03 / 0.01 / 37.21 2.96 / 0.00 / 0.02 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 814 - / - / - / - / - 2.72 / 0.00 / 0.02 / 0.00 / 92.11
void phi::funcs::VectorizedElementwiseKernel<... 110 - / - / - / - / - 0.23 / 0.00 / 0.00 / 0.00 / 7.89
grad_node_creation 924 5.30 / 0.01 / 0.03 / 0.00 / 22.07 0.00 / 0.00 / 0.00 / 0.00 / 0.00
concat 308 11.24 / 0.04 / 0.12 / 0.03 / 0.71 2.46 / 0.01 / 0.02 / 0.00 / 0.30
infer_shape 308 1.31 / 0.00 / 0.01 / 0.00 / 11.66 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 308 5.11 / 0.02 / 0.10 / 0.01 / 45.49 2.45 / 0.01 / 0.02 / 0.00 / 99.65
void phi::funcs::ConcatKernel_<float>(float c... 264 - / - / - / - / - 2.27 / 0.01 / 0.02 / 0.01 / 92.71
void phi::funcs::ConcatKernel_<int>(int const... 44 - / - / - / - / - 0.12 / 0.00 / 0.00 / 0.00 / 4.71
grad_node_creation 308 1.68 / 0.01 / 0.02 / 0.00 / 14.98 0.00 / 0.00 / 0.00 / 0.00 / 0.00
GpuMemcpySync:CUDAPinned->GPU 11 0.26 / 0.02 / 0.03 / 0.02 / 2.34 0.01 / 0.00 / 0.00 / 0.00 / 0.35
MEMCPY_HtoD 11 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 100.00
fill_any_like 946 16.88 / 0.02 / 0.05 / 0.01 / 1.07 2.17 / 0.00 / 0.01 / 0.00 / 0.27
infer_shape 946 0.50 / 0.00 / 0.02 / 0.00 / 2.97 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 946 9.35 / 0.01 / 0.04 / 0.01 / 55.38 2.17 / 0.00 / 0.01 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 836 - / - / - / - / - 1.97 / 0.00 / 0.01 / 0.00 / 90.70
void phi::funcs::VectorizedElementwiseKernel<... 110 - / - / - / - / - 0.20 / 0.00 / 0.00 / 0.00 / 9.30
grad_node_creation 946 0.33 / 0.00 / 0.00 / 0.00 / 1.95 0.00 / 0.00 / 0.00 / 0.00 / 0.00
slice 693 20.41 / 0.03 / 0.10 / 0.02 / 1.29 1.76 / 0.00 / 0.00 / 0.00 / 0.22
infer_shape 693 1.41 / 0.00 / 0.02 / 0.00 / 6.93 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 693 11.93 / 0.02 / 0.07 / 0.01 / 58.43 1.76 / 0.00 / 0.00 / 0.00 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 165 - / - / - / - / - 0.46 / 0.00 / 0.00 / 0.00 / 26.19
void Eigen::internal::EigenMetaKernel<Eigen::... 176 - / - / - / - / - 0.38 / 0.00 / 0.00 / 0.00 / 21.45
void Eigen::internal::EigenMetaKernel<Eigen::... 176 - / - / - / - / - 0.38 / 0.00 / 0.00 / 0.00 / 21.62
void Eigen::internal::EigenMetaKernel<Eigen::... 176 - / - / - / - / - 0.38 / 0.00 / 0.00 / 0.00 / 21.76
grad_node_creation 693 0.94 / 0.00 / 0.02 / 0.00 / 4.59 0.00 / 0.00 / 0.00 / 0.00 / 0.00
scale grad_node 616 10.13 / 0.02 / 0.08 / 0.01 / 0.64 1.63 / 0.00 / 0.00 / 0.00 / 0.20
infer_shape 616 1.46 / 0.00 / 0.01 / 0.00 / 14.42 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 616 4.69 / 0.01 / 0.04 / 0.00 / 46.28 1.63 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 616 - / - / - / - / - 1.63 / 0.00 / 0.00 / 0.00 / 100.00
depthwise_conv2d 132 5.53 / 0.04 / 0.07 / 0.04 / 0.35 1.48 / 0.01 / 0.01 / 0.01 / 0.18
infer_shape 132 0.49 / 0.00 / 0.02 / 0.00 / 8.91 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 2.44 / 0.02 / 0.05 / 0.02 / 44.00 1.48 / 0.01 / 0.01 / 0.01 / 100.00
void paddle::operators::math::KernelDepthwise... 132 - / - / - / - / - 1.48 / 0.01 / 0.01 / 0.01 / 100.00
grad_node_creation 132 0.83 / 0.01 / 0.01 / 0.01 / 15.06 0.00 / 0.00 / 0.00 / 0.00 / 0.00
warpctc_grad grad_node 11 0.35 / 0.03 / 0.04 / 0.03 / 0.02 1.39 / 0.13 / 0.13 / 0.12 / 0.17
infer_shape 11 0.01 / 0.00 / 0.00 / 0.00 / 3.12 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 0.21 / 0.02 / 0.02 / 0.02 / 59.36 1.39 / 0.13 / 0.13 / 0.12 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 11 - / - / - / - / - 0.59 / 0.05 / 0.06 / 0.05 / 42.65
void Eigen::internal::EigenMetaKernel<Eigen::... 11 - / - / - / - / - 0.79 / 0.07 / 0.08 / 0.07 / 57.35
concat grad_node 132 3.17 / 0.02 / 0.04 / 0.02 / 0.20 1.35 / 0.01 / 0.01 / 0.01 / 0.17
infer_shape 132 0.59 / 0.00 / 0.01 / 0.00 / 18.73 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 1.54 / 0.01 / 0.02 / 0.01 / 48.72 1.35 / 0.01 / 0.01 / 0.01 / 100.00
void phi::funcs::ConcatKernel_<float>(float c... 132 - / - / - / - / - 1.35 / 0.01 / 0.01 / 0.01 / 100.00
unsqueeze2_grad grad_node 1188 14.02 / 0.01 / 0.05 / 0.01 / 0.89 1.32 / 0.00 / 0.01 / 0.00 / 0.16
infer_shape 1188 0.68 / 0.00 / 0.00 / 0.00 / 4.85 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1188 1.41 / 0.00 / 0.02 / 0.00 / 10.07 0.00 / 0.00 / 0.00 / 0.00 / 0.00
void axpy_kernel_val<float, float>(cublasAxpyPa... 480 - / - / - / - / - 1.32 / 0.00 / 0.01 / 0.00 / 100.00
elementwise_mul_grad grad_node 165 3.75 / 0.02 / 0.05 / 0.01 / 0.24 1.28 / 0.01 / 0.01 / 0.00 / 0.16
infer_shape 165 0.11 / 0.00 / 0.00 / 0.00 / 3.05 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 165 2.15 / 0.01 / 0.02 / 0.01 / 57.27 1.28 / 0.01 / 0.01 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<fl... 33 - / - / - / - / - 0.11 / 0.00 / 0.01 / 0.00 / 8.49
void phi::funcs::VectorizedBroadcastKernel<fl... 132 - / - / - / - / - 1.17 / 0.01 / 0.01 / 0.01 / 91.51
pad3d_grad grad_node 132 2.99 / 0.02 / 0.04 / 0.02 / 0.19 1.27 / 0.01 / 0.02 / 0.01 / 0.16
infer_shape 132 0.09 / 0.00 / 0.00 / 0.00 / 3.08 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 2.05 / 0.02 / 0.03 / 0.01 / 68.73 1.27 / 0.01 / 0.02 / 0.01 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 132 - / - / - / - / - 0.38 / 0.00 / 0.01 / 0.00 / 29.98
void phi::Pad3DGradConstNCDHW<float>(int, flo... 132 - / - / - / - / - 0.89 / 0.01 / 0.02 / 0.01 / 70.02
split 132 4.82 / 0.04 / 0.08 / 0.03 / 0.31 1.14 / 0.01 / 0.01 / 0.01 / 0.14
infer_shape 132 0.35 / 0.00 / 0.00 / 0.00 / 7.18 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 2.18 / 0.02 / 0.05 / 0.01 / 45.30 1.14 / 0.01 / 0.01 / 0.01 / 100.00
void phi::funcs::SplitKernel_<float>(float co... 132 - / - / - / - / - 1.14 / 0.01 / 0.01 / 0.01 / 100.00
grad_node_creation 132 0.94 / 0.01 / 0.01 / 0.01 / 19.58 0.00 / 0.00 / 0.00 / 0.00 / 0.00
equal 341 9.16 / 0.03 / 0.17 / 0.02 / 0.58 1.04 / 0.00 / 0.01 / 0.00 / 0.13
infer_shape 341 1.07 / 0.00 / 0.02 / 0.00 / 11.65 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 341 4.81 / 0.01 / 0.16 / 0.01 / 52.50 1.04 / 0.00 / 0.01 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<lo... 11 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 2.57
void phi::funcs::VectorizedBroadcastKernel<in... 66 - / - / - / - / - 0.18 / 0.00 / 0.00 / 0.00 / 16.85
void phi::funcs::VectorizedBroadcastKernel<bo... 264 - / - / - / - / - 0.84 / 0.00 / 0.01 / 0.00 / 80.58
grad_node_creation 341 0.05 / 0.00 / 0.00 / 0.00 / 0.56 0.00 / 0.00 / 0.00 / 0.00 / 0.00
elementwise_sub 11 1.61 / 0.15 / 0.18 / 0.13 / 0.10 1.02 / 0.09 / 0.11 / 0.08 / 0.13
GpuMemcpySync:CUDAPinned->GPU 11 1.18 / 0.11 / 0.13 / 0.09 / 73.15 0.97 / 0.09 / 0.11 / 0.08 / 95.19
MEMCPY_HtoD 11 - / - / - / - / - 0.97 / 0.09 / 0.11 / 0.08 / 100.00
infer_shape 11 0.02 / 0.00 / 0.00 / 0.00 / 1.30 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 0.19 / 0.02 / 0.02 / 0.02 / 11.72 0.05 / 0.00 / 0.01 / 0.00 / 4.81
void phi::funcs::VectorizedBroadcastKernel<fl... 11 - / - / - / - / - 0.05 / 0.00 / 0.01 / 0.00 / 100.00
grad_node_creation 11 0.00 / 0.00 / 0.00 / 0.00 / 0.08 0.00 / 0.00 / 0.00 / 0.00 / 0.00
pad3d 132 3.78 / 0.03 / 0.08 / 0.02 / 0.24 1.01 / 0.01 / 0.02 / 0.01 / 0.13
infer_shape 132 0.37 / 0.00 / 0.02 / 0.00 / 9.80 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 1.66 / 0.01 / 0.03 / 0.01 / 43.86 1.01 / 0.01 / 0.02 / 0.01 / 100.00
void phi::Pad3DConstNCDHW<float>(int, float c... 132 - / - / - / - / - 1.01 / 0.01 / 0.02 / 0.01 / 100.00
grad_node_creation 132 0.82 / 0.01 / 0.02 / 0.00 / 21.77 0.00 / 0.00 / 0.00 / 0.00 / 0.00
softmax_grad grad_node 264 5.11 / 0.02 / 0.05 / 0.01 / 0.32 0.94 / 0.00 / 0.01 / 0.00 / 0.12
infer_shape 264 0.56 / 0.00 / 0.02 / 0.00 / 11.05 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 264 2.25 / 0.01 / 0.03 / 0.01 / 43.99 0.94 / 0.00 / 0.01 / 0.00 / 100.00
void phi::WarpSoftmaxBackward<float, int2, fl... 72 - / - / - / - / - 0.29 / 0.00 / 0.01 / 0.00 / 30.38
void phi::WarpSoftmaxBackward<float, int2, fl... 24 - / - / - / - / - 0.07 / 0.00 / 0.01 / 0.00 / 6.99
void phi::WarpSoftmaxBackward<float, float, f... 90 - / - / - / - / - 0.35 / 0.00 / 0.00 / 0.00 / 36.85
void phi::WarpSoftmaxBackward<float, float, f... 12 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 2.98
void phi::WarpSoftmaxBackward<float, int4, fl... 36 - / - / - / - / - 0.14 / 0.00 / 0.01 / 0.00 / 14.78
void phi::WarpSoftmaxBackward<float, int4, fl... 18 - / - / - / - / - 0.04 / 0.00 / 0.00 / 0.00 / 4.72
void phi::WarpSoftmaxBackward<float, float, f... 12 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 3.30
flip 176 6.37 / 0.04 / 0.07 / 0.03 / 0.40 0.86 / 0.00 / 0.01 / 0.00 / 0.11
infer_shape 176 0.47 / 0.00 / 0.00 / 0.00 / 7.40 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 176 4.60 / 0.03 / 0.06 / 0.02 / 72.15 0.86 / 0.00 / 0.01 / 0.00 / 100.00
void phi::flip_cuda_kernel<int>(int, int cons... 176 - / - / - / - / - 0.48 / 0.00 / 0.00 / 0.00 / 55.64
grad_node_creation 176 0.02 / 0.00 / 0.00 / 0.00 / 0.25 0.00 / 0.00 / 0.00 / 0.00 / 0.00
fill_constant 677 13.18 / 0.02 / 0.06 / 0.01 / 0.84 0.84 / 0.00 / 0.02 / 0.00 / 0.10
infer_shape 677 0.57 / 0.00 / 0.01 / 0.00 / 4.29 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 677 6.54 / 0.01 / 0.04 / 0.00 / 49.64 0.84 / 0.00 / 0.02 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 132 - / - / - / - / - 0.24 / 0.00 / 0.00 / 0.00 / 29.02
void phi::funcs::VectorizedElementwiseKernel<... 297 - / - / - / - / - 0.56 / 0.00 / 0.02 / 0.00 / 67.12
void phi::funcs::VectorizedElementwiseKernel<... 17 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 3.86
grad_node_creation 677 0.06 / 0.00 / 0.00 / 0.00 / 0.49 0.00 / 0.00 / 0.00 / 0.00 / 0.00
softmax 264 7.39 / 0.03 / 0.06 / 0.02 / 0.47 0.83 / 0.00 / 0.00 / 0.00 / 0.10
infer_shape 264 0.60 / 0.00 / 0.00 / 0.00 / 8.17 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 264 2.83 / 0.01 / 0.04 / 0.01 / 38.38 0.83 / 0.00 / 0.00 / 0.00 / 100.00
void phi::WarpSoftmaxForward<float, int2, flo... 72 - / - / - / - / - 0.25 / 0.00 / 0.00 / 0.00 / 30.01
void phi::WarpSoftmaxForward<float, int2, flo... 24 - / - / - / - / - 0.05 / 0.00 / 0.00 / 0.00 / 6.51
void phi::WarpSoftmaxForward<float, float, fl... 90 - / - / - / - / - 0.30 / 0.00 / 0.00 / 0.00 / 36.31
void phi::WarpSoftmaxForward<float, float, fl... 12 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 3.20
void phi::WarpSoftmaxForward<float, int4, flo... 36 - / - / - / - / - 0.13 / 0.00 / 0.00 / 0.00 / 15.06
void phi::WarpSoftmaxForward<float, int4, flo... 18 - / - / - / - / - 0.04 / 0.00 / 0.00 / 0.00 / 5.12
void phi::WarpSoftmaxForward<float, float, fl... 12 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 3.78
grad_node_creation 264 1.28 / 0.00 / 0.02 / 0.00 / 17.28 0.00 / 0.00 / 0.00 / 0.00 / 0.00
lookup_table_v2_grad grad_node 22 0.64 / 0.03 / 0.04 / 0.02 / 0.04 0.61 / 0.03 / 0.03 / 0.01 / 0.08
infer_shape 22 0.01 / 0.00 / 0.00 / 0.00 / 1.71 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.29 / 0.01 / 0.02 / 0.01 / 45.06 0.29 / 0.01 / 0.01 / 0.01 / 46.71
MEMSET 22 - / - / - / - / - 0.18 / 0.01 / 0.01 / 0.01 / 62.88
void phi::EmbeddingGrad<float, int>(float*, f... 22 - / - / - / - / - 0.11 / 0.00 / 0.01 / 0.00 / 37.12
void axpy_kernel_val<float, float>(cublasAxpyPa... 16 - / - / - / - / - 0.33 / 0.02 / 0.02 / 0.02 / 53.29
reduce_sum 110 5.13 / 0.05 / 0.09 / 0.03 / 0.32 0.55 / 0.00 / 0.01 / 0.00 / 0.07
infer_shape 110 0.43 / 0.00 / 0.01 / 0.00 / 8.45 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 110 3.48 / 0.03 / 0.07 / 0.02 / 67.83 0.55 / 0.00 / 0.01 / 0.00 / 100.00
void cub::DeviceReduceSingleTileKernel<cub::D... 11 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 5.08
void phi::funcs::VectorizedElementwiseKernel<... 44 - / - / - / - / - 0.09 / 0.00 / 0.00 / 0.00 / 16.71
void cub::DeviceReduceSingleTileKernel<cub::D... 44 - / - / - / - / - 0.10 / 0.00 / 0.00 / 0.00 / 18.23
void cub::DeviceReduceKernel<cub::DeviceReduc... 22 - / - / - / - / - 0.09 / 0.00 / 0.01 / 0.00 / 16.98
void cub::DeviceReduceSingleTileKernel<cub::D... 22 - / - / - / - / - 0.06 / 0.00 / 0.00 / 0.00 / 10.53
void phi::funcs::VectorizedElementwiseKernel<... 33 - / - / - / - / - 0.08 / 0.00 / 0.00 / 0.00 / 14.30
void phi::funcs::ReduceHigherDimKernel<long, ... 22 - / - / - / - / - 0.07 / 0.00 / 0.00 / 0.00 / 13.10
void phi::funcs::ReduceAnyKernel<long, long, ... 11 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 5.08
grad_node_creation 110 0.26 / 0.00 / 0.01 / 0.00 / 5.15 0.00 / 0.00 / 0.00 / 0.00 / 0.00
sigmoid_grad grad_node 132 2.07 / 0.02 / 0.04 / 0.01 / 0.13 0.51 / 0.00 / 0.00 / 0.00 / 0.06
infer_shape 132 0.06 / 0.00 / 0.00 / 0.00 / 2.79 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 0.98 / 0.01 / 0.01 / 0.01 / 47.22 0.51 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 132 - / - / - / - / - 0.51 / 0.00 / 0.00 / 0.00 / 100.00
cast 242 4.04 / 0.02 / 0.04 / 0.01 / 0.26 0.50 / 0.00 / 0.00 / 0.00 / 0.06
infer_shape 242 0.14 / 0.00 / 0.02 / 0.00 / 3.44 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 242 2.21 / 0.01 / 0.02 / 0.01 / 54.81 0.50 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 187 - / - / - / - / - 0.38 / 0.00 / 0.00 / 0.00 / 75.21
void phi::funcs::VectorizedElementwiseKernel<... 44 - / - / - / - / - 0.10 / 0.00 / 0.00 / 0.00 / 19.96
void phi::funcs::VectorizedElementwiseKernel<... 11 - / - / - / - / - 0.02 / 0.00 / 0.00 / 0.00 / 4.83
grad_node_creation 242 0.07 / 0.00 / 0.01 / 0.00 / 1.77 0.00 / 0.00 / 0.00 / 0.00 / 0.00
sigmoid 132 3.32 / 0.03 / 0.06 / 0.02 / 0.21 0.49 / 0.00 / 0.02 / 0.00 / 0.06
infer_shape 132 0.06 / 0.00 / 0.00 / 0.00 / 1.68 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 1.49 / 0.01 / 0.04 / 0.01 / 44.78 0.49 / 0.00 / 0.02 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 132 - / - / - / - / - 0.49 / 0.00 / 0.02 / 0.00 / 100.00
grad_node_creation 132 0.77 / 0.01 / 0.03 / 0.00 / 23.18 0.00 / 0.00 / 0.00 / 0.00 / 0.00
log_softmax_grad grad_node 22 0.50 / 0.02 / 0.04 / 0.01 / 0.03 0.44 / 0.02 / 0.02 / 0.02 / 0.05
infer_shape 22 0.02 / 0.00 / 0.00 / 0.00 / 3.60 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.33 / 0.01 / 0.03 / 0.01 / 64.38 0.44 / 0.02 / 0.02 / 0.02 / 100.00
void cudnn::softmax_bw_kernel<2, float, float... 22 - / - / - / - / - 0.44 / 0.02 / 0.02 / 0.02 / 100.00
kldiv_loss_grad grad_node 22 0.38 / 0.02 / 0.05 / 0.01 / 0.02 0.27 / 0.01 / 0.02 / 0.01 / 0.03
infer_shape 22 0.02 / 0.00 / 0.00 / 0.00 / 4.26 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.19 / 0.01 / 0.03 / 0.01 / 48.39 0.27 / 0.01 / 0.02 / 0.01 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 22 - / - / - / - / - 0.27 / 0.01 / 0.02 / 0.01 / 100.00
masked_select 22 1.18 / 0.05 / 0.08 / 0.04 / 0.07 0.27 / 0.01 / 0.02 / 0.01 / 0.03
infer_shape 22 0.04 / 0.00 / 0.00 / 0.00 / 3.29 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.90 / 0.04 / 0.06 / 0.03 / 76.46 0.27 / 0.01 / 0.02 / 0.01 / 100.00
void phi::funcs::GetBlockCountKernel<bool, lo... 22 - / - / - / - / - 0.05 / 0.00 / 0.00 / 0.00 / 19.13
void phi::funcs::CumsumOneBlock<long, long, p... 22 - / - / - / - / - 0.09 / 0.00 / 0.01 / 0.00 / 34.89
void phi::funcs::SelectKernel<bool, int, long... 11 - / - / - / - / - 0.05 / 0.00 / 0.01 / 0.00 / 19.17
void phi::funcs::SelectKernel<bool, long, lon... 11 - / - / - / - / - 0.05 / 0.00 / 0.01 / 0.00 / 19.33
grad_node_creation 22 0.07 / 0.00 / 0.01 / 0.00 / 5.59 0.00 / 0.00 / 0.00 / 0.00 / 0.00
kldiv_loss 22 0.67 / 0.03 / 0.05 / 0.03 / 0.04 0.27 / 0.01 / 0.02 / 0.01 / 0.03
infer_shape 22 0.07 / 0.00 / 0.00 / 0.00 / 9.68 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.25 / 0.01 / 0.01 / 0.01 / 36.57 0.27 / 0.01 / 0.02 / 0.01 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 22 - / - / - / - / - 0.27 / 0.01 / 0.02 / 0.01 / 100.00
grad_node_creation 22 0.14 / 0.01 / 0.01 / 0.00 / 20.72 0.00 / 0.00 / 0.00 / 0.00 / 0.00
log_softmax 22 0.70 / 0.03 / 0.04 / 0.03 / 0.04 0.25 / 0.01 / 0.01 / 0.01 / 0.03
infer_shape 22 0.06 / 0.00 / 0.00 / 0.00 / 8.06 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.39 / 0.02 / 0.02 / 0.01 / 55.82 0.25 / 0.01 / 0.01 / 0.01 / 100.00
void cudnn::ops::softmax_fw_kernel_resident<2... 22 - / - / - / - / - 0.25 / 0.01 / 0.01 / 0.01 / 100.00
grad_node_creation 22 0.09 / 0.00 / 0.01 / 0.00 / 13.22 0.00 / 0.00 / 0.00 / 0.00 / 0.00
one_hot_v2 22 0.61 / 0.03 / 0.04 / 0.02 / 0.04 0.16 / 0.01 / 0.01 / 0.01 / 0.02
infer_shape 22 0.08 / 0.00 / 0.00 / 0.00 / 12.72 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.36 / 0.02 / 0.02 / 0.01 / 59.31 0.16 / 0.01 / 0.01 / 0.01 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 22 - / - / - / - / - 0.12 / 0.01 / 0.01 / 0.00 / 71.49
void phi::FillOutputKernel<int, float>(int co... 22 - / - / - / - / - 0.05 / 0.00 / 0.00 / 0.00 / 28.51
grad_node_creation 22 0.00 / 0.00 / 0.00 / 0.00 / 0.34 0.00 / 0.00 / 0.00 / 0.00 / 0.00
reduce_sum_grad grad_node 33 0.63 / 0.02 / 0.03 / 0.01 / 0.04 0.15 / 0.00 / 0.01 / 0.00 / 0.02
infer_shape 33 0.04 / 0.00 / 0.00 / 0.00 / 5.73 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 33 0.38 / 0.01 / 0.02 / 0.01 / 61.36 0.15 / 0.00 / 0.01 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<fl... 33 - / - / - / - / - 0.15 / 0.00 / 0.01 / 0.00 / 100.00
arg_max 11 0.30 / 0.03 / 0.03 / 0.03 / 0.02 0.14 / 0.01 / 0.01 / 0.01 / 0.02
infer_shape 11 0.05 / 0.00 / 0.00 / 0.00 / 16.21 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 0.15 / 0.01 / 0.01 / 0.01 / 49.23 0.14 / 0.01 / 0.01 / 0.01 / 100.00
void phi::ArgCUDAKernel<float, long, cub::Arg... 11 - / - / - / - / - 0.14 / 0.01 / 0.01 / 0.01 / 100.00
grad_node_creation 11 0.00 / 0.00 / 0.00 / 0.00 / 1.36 0.00 / 0.00 / 0.00 / 0.00 / 0.00
reduce_max 33 69.65 / 2.11 / 10.94 / 0.04 / 4.41 0.09 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 33 0.18 / 0.01 / 0.01 / 0.00 / 0.25 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 33 1.18 / 0.04 / 0.06 / 0.02 / 1.70 0.08 / 0.00 / 0.00 / 0.00 / 90.62
void cub::DeviceReduceSingleTileKernel<cub::D... 33 - / - / - / - / - 0.08 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 33 0.01 / 0.00 / 0.00 / 0.00 / 0.01 0.00 / 0.00 / 0.00 / 0.00 / 0.00
GpuMemcpySync:CUDAPinned->GPU 11 67.67 / 6.15 / 10.85 / 0.03 / 97.16 0.01 / 0.00 / 0.00 / 0.00 / 9.38
MEMCPY_HtoD 11 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 100.00
greater_equal 33 0.91 / 0.03 / 0.04 / 0.02 / 0.06 0.08 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 33 0.09 / 0.00 / 0.00 / 0.00 / 9.77 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 33 0.52 / 0.02 / 0.02 / 0.01 / 57.45 0.08 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<lo... 33 - / - / - / - / - 0.08 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 33 0.00 / 0.00 / 0.00 / 0.00 / 0.37 0.00 / 0.00 / 0.00 / 0.00 / 0.00
lookup_table_v2 22 0.79 / 0.04 / 0.05 / 0.03 / 0.05 0.08 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 22 0.03 / 0.00 / 0.00 / 0.00 / 3.98 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.28 / 0.01 / 0.01 / 0.01 / 35.32 0.08 / 0.00 / 0.00 / 0.00 / 100.00
void phi::EmbeddingFW<float, int, false>(floa... 22 - / - / - / - / - 0.08 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 22 0.22 / 0.01 / 0.01 / 0.01 / 28.03 0.00 / 0.00 / 0.00 / 0.00 / 0.00
logical_not 33 0.64 / 0.02 / 0.03 / 0.02 / 0.04 0.08 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 33 0.02 / 0.00 / 0.00 / 0.00 / 3.76 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 33 0.39 / 0.01 / 0.02 / 0.01 / 60.38 0.08 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<bo... 33 - / - / - / - / - 0.08 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 33 0.00 / 0.00 / 0.00 / 0.00 / 0.36 0.00 / 0.00 / 0.00 / 0.00 / 0.00
bitwise_and 22 0.46 / 0.02 / 0.02 / 0.02 / 0.03 0.07 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 22 0.03 / 0.00 / 0.00 / 0.00 / 7.00 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.28 / 0.01 / 0.01 / 0.01 / 61.53 0.07 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<bo... 22 - / - / - / - / - 0.07 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 22 0.00 / 0.00 / 0.00 / 0.00 / 0.43 0.00 / 0.00 / 0.00 / 0.00 / 0.00
strided_slice 22 0.58 / 0.03 / 0.03 / 0.02 / 0.04 0.07 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 22 0.09 / 0.00 / 0.01 / 0.00 / 15.87 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.27 / 0.01 / 0.02 / 0.01 / 46.32 0.07 / 0.00 / 0.00 / 0.00 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 22 - / - / - / - / - 0.07 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 22 0.00 / 0.00 / 0.00 / 0.00 / 0.36 0.00 / 0.00 / 0.00 / 0.00 / 0.00
range 33 0.93 / 0.03 / 0.04 / 0.02 / 0.06 0.07 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 33 0.09 / 0.00 / 0.00 / 0.00 / 9.86 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 33 0.49 / 0.01 / 0.03 / 0.01 / 52.53 0.07 / 0.00 / 0.00 / 0.00 / 100.00
void phi::Range<long>(long, long, long, long*) 33 - / - / - / - / - 0.07 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 33 0.01 / 0.00 / 0.00 / 0.00 / 0.57 0.00 / 0.00 / 0.00 / 0.00 / 0.00
tril_triu 22 0.45 / 0.02 / 0.02 / 0.02 / 0.03 0.05 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 22 0.06 / 0.00 / 0.00 / 0.00 / 13.70 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.23 / 0.01 / 0.01 / 0.01 / 49.99 0.05 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::ForRangeElemwiseOpGridIsOne<... 22 - / - / - / - / - 0.05 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 22 0.00 / 0.00 / 0.00 / 0.00 / 0.38 0.00 / 0.00 / 0.00 / 0.00 / 0.00
logical_and 11 0.26 / 0.02 / 0.03 / 0.02 / 0.02 0.04 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 11 0.01 / 0.00 / 0.00 / 0.00 / 5.68 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 0.15 / 0.01 / 0.02 / 0.01 / 58.32 0.04 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<bo... 11 - / - / - / - / - 0.04 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 11 0.00 / 0.00 / 0.00 / 0.00 / 0.42 0.00 / 0.00 / 0.00 / 0.00 / 0.00
not_equal 11 0.30 / 0.03 / 0.03 / 0.02 / 0.02 0.03 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 11 0.03 / 0.00 / 0.00 / 0.00 / 11.29 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 0.15 / 0.01 / 0.02 / 0.01 / 50.23 0.03 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<in... 11 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 11 0.00 / 0.00 / 0.00 / 0.00 / 0.59 0.00 / 0.00 / 0.00 / 0.00 / 0.00
bitwise_not 11 0.20 / 0.02 / 0.02 / 0.02 / 0.01 0.02 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 11 0.01 / 0.00 / 0.00 / 0.00 / 4.33 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 0.11 / 0.01 / 0.01 / 0.01 / 54.64 0.02 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 11 - / - / - / - / - 0.02 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 11 0.00 / 0.00 / 0.00 / 0.00 / 0.40 0.00 / 0.00 / 0.00 / 0.00 / 0.00
elementwise_div 3 0.08 / 0.03 / 0.03 / 0.03 / 0.00 0.01 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 3 0.00 / 0.00 / 0.00 / 0.00 / 3.84 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 3 0.04 / 0.01 / 0.01 / 0.01 / 54.59 0.01 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<fl... 3 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 3 0.00 / 0.00 / 0.00 / 0.00 / 0.32 0.00 / 0.00 / 0.00 / 0.00 / 0.00
randint 11 15.09 / 1.37 / 1.50 / 1.21 / 0.96 0.01 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 11 0.02 / 0.00 / 0.00 / 0.00 / 0.11 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 14.99 / 1.36 / 1.49 / 1.20 / 99.29 0.01 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 11 0.00 / 0.00 / 0.00 / 0.00 / 0.01 0.00 / 0.00 / 0.00 / 0.00 / 0.00
elementwise_max 3 0.09 / 0.03 / 0.03 / 0.03 / 0.01 0.01 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 3 0.00 / 0.00 / 0.00 / 0.00 / 4.18 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 3 0.05 / 0.02 / 0.02 / 0.02 / 56.97 0.01 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<fl... 3 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 3 0.00 / 0.00 / 0.00 / 0.00 / 0.27 0.00 / 0.00 / 0.00 / 0.00 / 0.00
sqrt 3 0.06 / 0.02 / 0.02 / 0.02 / 0.00 0.01 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 3 0.00 / 0.00 / 0.00 / 0.00 / 2.03 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 3 0.04 / 0.01 / 0.01 / 0.01 / 57.96 0.01 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 3 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 3 0.00 / 0.00 / 0.00 / 0.00 / 0.33 0.00 / 0.00 / 0.00 / 0.00 / 0.00
reshape2_grad grad_node 1221 8.08 / 0.01 / 0.02 / 0.00 / 0.51 0.00 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 1221 0.93 / 0.00 / 0.00 / 0.00 / 11.52 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1221 1.02 / 0.00 / 0.00 / 0.00 / 12.61 0.00 / 0.00 / 0.00 / 0.00 / 0.00
squeeze2_grad grad_node 539 4.55 / 0.01 / 0.02 / 0.01 / 0.29 0.00 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 539 0.38 / 0.00 / 0.01 / 0.00 / 8.36 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 539 0.91 / 0.00 / 0.02 / 0.00 / 20.07 0.00 / 0.00 / 0.00 / 0.00 / 0.00
squeeze2 682 11.43 / 0.02 / 0.05 / 0.01 / 0.72 0.00 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 682 2.34 / 0.00 / 0.02 / 0.00 / 20.47 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 682 1.70 / 0.00 / 0.02 / 0.00 / 14.91 0.00 / 0.00 / 0.00 / 0.00 / 0.00
grad_node_creation 682 2.05 / 0.00 / 0.03 / 0.00 / 17.92 0.00 / 0.00 / 0.00 / 0.00 / 0.00
reshape2 1265 20.01 / 0.02 / 0.25 / 0.01 / 1.27 0.00 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 1265 2.34 / 0.00 / 0.00 / 0.00 / 11.72 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1265 2.89 / 0.00 / 0.02 / 0.00 / 14.44 0.00 / 0.00 / 0.00 / 0.00 / 0.00
grad_node_creation 1265 4.61 / 0.00 / 0.08 / 0.00 / 23.03 0.00 / 0.00 / 0.00 / 0.00 / 0.00
unsqueeze2 1617 23.40 / 0.01 / 0.04 / 0.01 / 1.48 0.00 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 1617 4.77 / 0.00 / 0.02 / 0.00 / 20.36 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1617 2.96 / 0.00 / 0.02 / 0.00 / 12.65 0.00 / 0.00 / 0.00 / 0.00 / 0.00
grad_node_creation 1617 4.60 / 0.00 / 0.03 / 0.00 / 19.66 0.00 / 0.00 / 0.00 / 0.00 / 0.00
shape 11 0.17 / 0.02 / 0.03 / 0.01 / 0.01 0.00 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 11 0.02 / 0.00 / 0.00 / 0.00 / 14.32 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 0.04 / 0.00 / 0.00 / 0.00 / 21.14 0.00 / 0.00 / 0.00 / 0.00 / 0.00
grad_node_creation 11 0.00 / 0.00 / 0.00 / 0.00 / 0.52 0.00 / 0.00 / 0.00 / 0.00 / 0.00
---------------------------------------------------- ------ ---------------------------------------- ----------------------------------------
@Caozhou1995 这白名单custom_white_list
不需要设置也行的吧,可以自动获取支持float16的op吧?
可以的。可以看amp fp16和fp32的使用说明:https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/performance_improving/amp_cn.html#id2
summary信息是开启amp后的吗?没在里面看到fp16
这个是没有用混合精度的
麻烦再提供一下使用混合精度的summary信息
好的,明天发下
@Caozhou1995 这个是开启了混合精度的。
----------------------------------------------------------------Operator Summary----------------------------------------------------------------
Time unit: ms
---------------------------------------------------- ------ ---------------------------------------- ----------------------------------------
Name Calls CPU Total / Avg / Max / Min / Ratio(%) GPU Total / Avg / Max / Min / Ratio(%)
---------------------------------------------------- ------ ---------------------------------------- ----------------------------------------
-----------------------------------------------------------Thread: All threads merged-----------------------------------------------------------
matmul_v2_grad grad_node 2552 241.50 / 0.09 / 2.81 / 0.03 / 9.80 206.85 / 0.08 / 0.79 / 0.01 / 24.21
infer_shape 2552 6.12 / 0.00 / 0.03 / 0.00 / 2.53 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 2552 207.25 / 0.08 / 2.79 / 0.02 / 85.82 206.85 / 0.08 / 0.79 / 0.01 / 100.00
turing_fp16_s1688gemm_fp16_128x128_ldg8_f2f_tn 275 - / - / - / - / - 18.15 / 0.07 / 0.13 / 0.06 / 8.78
MEMSET 610 - / - / - / - / - 0.49 / 0.00 / 0.00 / 0.00 / 0.24
turing_fp16_s1688gemm_fp16_256x128_ldg8_f2f_nt 11 - / - / - / - / - 1.49 / 0.14 / 0.14 / 0.13 / 0.72
turing_fp16_s1688gemm_fp16_128x64_sliced1x2_l... 210 - / - / - / - / - 9.89 / 0.05 / 0.08 / 0.01 / 4.78
turing_fp16_s1688gemm_fp16_128x128_ldg8_f2f_s... 1188 - / - / - / - / - 39.65 / 0.03 / 0.07 / 0.02 / 19.17
turing_fp16_s1688gemm_fp16_64x128_sliced1x2_l... 780 - / - / - / - / - 17.70 / 0.02 / 0.07 / 0.01 / 8.56
void splitKreduce_kernel<32, 16, int, __half,... 699 - / - / - / - / - 3.31 / 0.00 / 0.01 / 0.00 / 1.60
void cutlass::Kernel<cutlass_75_wmma_tensorop... 528 - / - / - / - / - 4.08 / 0.01 / 0.02 / 0.01 / 1.97
void cutlass::Kernel<cutlass_75_wmma_tensorop... 6144 - / - / - / - / - 27.42 / 0.00 / 0.02 / 0.00 / 13.25
void cutlass::Kernel<cutlass_75_tensorop_h168... 192 - / - / - / - / - 1.80 / 0.01 / 0.01 / 0.01 / 0.87
void phi::funcs::ReduceHigherDimKernel<phi::d... 132 - / - / - / - / - 0.49 / 0.00 / 0.00 / 0.00 / 0.23
void cutlass::Kernel<cutlass_75_tensorop_h168... 48 - / - / - / - / - 0.51 / 0.01 / 0.02 / 0.01 / 0.25
void cutlass::Kernel<cutlass_75_tensorop_h168... 48 - / - / - / - / - 0.59 / 0.01 / 0.01 / 0.01 / 0.28
turing_fp16_s1688gemm_fp16_64x64_sliced1x4_ld... 456 - / - / - / - / - 5.34 / 0.01 / 0.02 / 0.01 / 2.58
void gemmSN_NN_kernel_half<__half, 256, 8, 4,... 132 - / - / - / - / - 3.02 / 0.02 / 0.03 / 0.02 / 1.46
void cutlass::Kernel<cutlass_75_wmma_tensorop... 120 - / - / - / - / - 0.96 / 0.01 / 0.01 / 0.01 / 0.47
void gemmSN_TN_kernel_half<256, 8, 2, 4, 5, c... 132 - / - / - / - / - 2.34 / 0.02 / 0.03 / 0.01 / 1.13
turing_fp16_s1688gemm_fp16_64x64_sliced1x4_ld... 132 - / - / - / - / - 1.76 / 0.01 / 0.01 / 0.01 / 0.85
void cutlass::Kernel<cutlass_75_tensorop_f16_... 33 - / - / - / - / - 2.24 / 0.07 / 0.13 / 0.04 / 1.08
void cutlass::Kernel<cutlass_75_tensorop_f16_... 22 - / - / - / - / - 0.64 / 0.03 / 0.03 / 0.03 / 0.31
void cutlass::Kernel<cutlass_75_tensorop_f16_... 11 - / - / - / - / - 1.17 / 0.11 / 0.11 / 0.10 / 0.57
void cutlass::Kernel<cutlass_75_wmma_tensorop... 9216 - / - / - / - / - 52.18 / 0.01 / 0.02 / 0.01 / 25.23
void cutlass::Kernel<cutlass_75_tensorop_h168... 300 - / - / - / - / - 2.74 / 0.01 / 0.02 / 0.01 / 1.32
void cutlass::Kernel<cutlass_75_tensorop_h168... 72 - / - / - / - / - 0.77 / 0.01 / 0.01 / 0.01 / 0.37
void cutlass::Kernel<cutlass_75_tensorop_h168... 72 - / - / - / - / - 0.92 / 0.01 / 0.01 / 0.01 / 0.44
void cutlass::Kernel<cutlass_75_wmma_tensorop... 1536 - / - / - / - / - 6.27 / 0.00 / 0.00 / 0.00 / 3.03
turing_h1688gemm_128x128_ldg8_stages_32x1_nt 48 - / - / - / - / - 0.53 / 0.01 / 0.01 / 0.01 / 0.26
turing_h1688gemm_128x128_ldg8_stages_32x1_nn 12 - / - / - / - / - 0.14 / 0.01 / 0.01 / 0.01 / 0.07
turing_h1688gemm_128x128_ldg8_stages_32x1_tn 12 - / - / - / - / - 0.16 / 0.01 / 0.01 / 0.01 / 0.08
turing_fp16_s1688gemm_fp16_128x128_ldg8_f2f_s... 6 - / - / - / - / - 0.10 / 0.02 / 0.02 / 0.02 / 0.05
cast grad_node 7711 109.85 / 0.01 / 1.92 / 0.01 / 4.46 74.89 / 0.01 / 0.43 / 0.00 / 8.76
infer_shape 7711 3.13 / 0.00 / 0.02 / 0.00 / 2.85 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 7711 50.91 / 0.01 / 0.05 / 0.00 / 46.34 61.88 / 0.01 / 0.43 / 0.00 / 82.63
void phi::funcs::VectorizedElementwiseKernel<... 5137 - / - / - / - / - 36.63 / 0.01 / 0.43 / 0.00 / 59.19
void phi::funcs::VectorizedElementwiseKernel<... 2574 - / - / - / - / - 25.25 / 0.01 / 0.40 / 0.00 / 40.81
void axpy_kernel_val<float, float>(cublasAxpyPa... 1920 - / - / - / - / - 13.01 / 0.01 / 0.03 / 0.00 / 17.37
conv2d_grad grad_node 286 862.34 / 3.02 / 7.14 / 0.36 / 35.00 70.56 / 0.25 / 3.74 / 0.06 / 8.26
infer_shape 286 0.25 / 0.00 / 0.00 / 0.00 / 0.03 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 286 856.79 / 3.00 / 7.11 / 0.35 / 99.36 70.56 / 0.25 / 3.74 / 0.06 / 100.00
void cudnn::ops::nchwToNhwcKernel<__half, __h... 791 - / - / - / - / - 13.55 / 0.02 / 0.29 / 0.00 / 19.20
MEMSET 41 - / - / - / - / - 0.56 / 0.01 / 0.04 / 0.00 / 0.79
void xmma_cudnn::ext::implicit_gemm::kernel<x... 7 - / - / - / - / - 6.55 / 0.94 / 0.98 / 0.88 / 9.29
void cudnn::ops::nhwcToNchwKernel<__half, __h... 237 - / - / - / - / - 4.35 / 0.02 / 0.28 / 0.00 / 6.17
void xmma_cudnn::implicit_gemm::strided_dgrad... 5 - / - / - / - / - 0.02 / 0.00 / 0.00 / 0.00 / 0.02
void xmma_cudnn::implicit_gemm::strided_dgrad... 5 - / - / - / - / - 0.02 / 0.00 / 0.00 / 0.00 / 0.03
void xmma_cudnn::implicit_gemm::strided_dgrad... 5 - / - / - / - / - 0.02 / 0.00 / 0.00 / 0.00 / 0.02
void xmma_cudnn::implicit_gemm::strided_dgrad... 5 - / - / - / - / - 0.08 / 0.02 / 0.02 / 0.02 / 0.11
void xmma_cudnn::implicit_gemm::strided_dgrad... 5 - / - / - / - / - 5.44 / 1.09 / 1.18 / 1.00 / 7.71
void xmma_cudnn::gemm::kernel<xmma_cudnn::imp... 11 - / - / - / - / - 11.17 / 1.02 / 1.08 / 0.92 / 15.83
void cask_cudnn::computeOffsetsKernel<true, f... 24 - / - / - / - / - 0.06 / 0.00 / 0.00 / 0.00 / 0.09
cask_cudnn::computeBOffsetsKernel(cask_cudnn:... 24 - / - / - / - / - 0.06 / 0.00 / 0.00 / 0.00 / 0.08
turing_fp16_s1688cudnn_fp16_128x128_ldg8_dgra... 12 - / - / - / - / - 0.42 / 0.03 / 0.04 / 0.03 / 0.59
void xmma_cudnn::gemm::kernel<xmma_cudnn::imp... 264 - / - / - / - / - 7.91 / 0.03 / 0.04 / 0.02 / 11.21
void xmma_cudnn::gemm::kernel<xmma_cudnn::imp... 120 - / - / - / - / - 3.11 / 0.03 / 0.03 / 0.02 / 4.41
void xmma_cudnn::gemm::kernel<xmma_cudnn::imp... 4 - / - / - / - / - 1.71 / 0.43 / 0.44 / 0.39 / 2.42
void xmma_cudnn::gemm::split_k_kernel<xmma_cu... 4 - / - / - / - / - 0.03 / 0.01 / 0.01 / 0.01 / 0.05
void xmma_cudnn::implicit_gemm::strided_dgrad... 6 - / - / - / - / - 0.02 / 0.00 / 0.00 / 0.00 / 0.03
void xmma_cudnn::implicit_gemm::strided_dgrad... 6 - / - / - / - / - 0.02 / 0.00 / 0.00 / 0.00 / 0.03
void xmma_cudnn::implicit_gemm::strided_dgrad... 6 - / - / - / - / - 0.02 / 0.00 / 0.00 / 0.00 / 0.03
void xmma_cudnn::implicit_gemm::strided_dgrad... 6 - / - / - / - / - 0.10 / 0.02 / 0.02 / 0.02 / 0.14
void xmma_cudnn::implicit_gemm::strided_dgrad... 6 - / - / - / - / - 11.13 / 1.85 / 1.90 / 1.77 / 15.77
void xmma_cudnn::gemm::kernel<xmma_cudnn::imp... 72 - / - / - / - / - 2.13 / 0.03 / 0.03 / 0.03 / 3.01
void cutlass::Kernel<cutlass_75_tensorop_f16_... 36 - / - / - / - / - 1.31 / 0.04 / 0.04 / 0.04 / 1.86
volta_fp16_s884cudnn_fp16_128x128_ldg8_dgrad_... 12 - / - / - / - / - 0.38 / 0.03 / 0.03 / 0.03 / 0.54
turing_fp16_s1688gemm_fp16_128x128_ldg8_f2f_s... 12 - / - / - / - / - 0.40 / 0.03 / 0.04 / 0.03 / 0.57
cast 8272 174.81 / 0.02 / 0.86 / 0.01 / 7.10 68.74 / 0.01 / 0.44 / 0.00 / 8.04
infer_shape 8272 3.99 / 0.00 / 0.02 / 0.00 / 2.28 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 8272 85.14 / 0.01 / 0.57 / 0.01 / 48.71 68.74 / 0.01 / 0.44 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 363 - / - / - / - / - 0.82 / 0.00 / 0.00 / 0.00 / 1.19
void phi::funcs::VectorizedElementwiseKernel<... 2574 - / - / - / - / - 27.58 / 0.01 / 0.44 / 0.00 / 40.12
void phi::funcs::VectorizedElementwiseKernel<... 5280 - / - / - / - / - 40.20 / 0.01 / 0.40 / 0.00 / 58.48
void phi::funcs::VectorizedElementwiseKernel<... 44 - / - / - / - / - 0.11 / 0.00 / 0.00 / 0.00 / 0.16
void phi::funcs::VectorizedElementwiseKernel<... 11 - / - / - / - / - 0.03 / 0.00 / 0.01 / 0.00 / 0.05
grad_node_creation 8272 32.47 / 0.00 / 0.85 / 0.00 / 18.57 0.00 / 0.00 / 0.00 / 0.00 / 0.00
elementwise_add_grad grad_node 3344 98.34 / 0.03 / 0.10 / 0.01 / 3.99 50.78 / 0.02 / 0.30 / 0.00 / 5.94
infer_shape 3344 2.30 / 0.00 / 0.02 / 0.00 / 2.34 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 3344 54.78 / 0.02 / 0.05 / 0.00 / 55.71 45.48 / 0.01 / 0.30 / 0.00 / 89.58
void phi::funcs::ReduceAnyKernel<float, float... 682 - / - / - / - / - 9.42 / 0.01 / 0.30 / 0.01 / 20.71
void phi::funcs::ReduceHigherDimKernel<float,... 3376 - / - / - / - / - 32.29 / 0.01 / 0.11 / 0.00 / 70.99
void phi::SimpleElemwiseAddGradCUDAKernel<flo... 22 - / - / - / - / - 0.05 / 0.00 / 0.00 / 0.00 / 0.12
void axpy_kernel_val<float, float>(cublasAxpyPa... 1716 - / - / - / - / - 5.29 / 0.00 / 0.01 / 0.00 / 10.42
warpctc 11 40.08 / 3.64 / 3.85 / 3.29 / 1.63 35.36 / 3.21 / 3.39 / 2.94 / 4.14
infer_shape 11 0.05 / 0.00 / 0.00 / 0.00 / 0.12 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 39.69 / 3.61 / 3.81 / 3.26 / 99.01 35.36 / 3.21 / 3.39 / 2.94 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 22 - / - / - / - / - 1.38 / 0.06 / 0.07 / 0.05 / 3.89
void paddle::operators::math::SequencePadding... 11 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 0.10
MEMCPY_HtoD 55 - / - / - / - / - 0.04 / 0.00 / 0.00 / 0.00 / 0.12
MEMCPY_DtoD 11 - / - / - / - / - 1.19 / 0.11 / 0.11 / 0.10 / 3.35
void reduce_rows<128, ctc_helper::identity<fl... 11 - / - / - / - / - 0.64 / 0.06 / 0.06 / 0.05 / 1.80
void prepare_stable_SM_kernel<float, 1, ctc_h... 11 - / - / - / - / - 1.16 / 0.11 / 0.11 / 0.10 / 3.27
void reduce_rows<128, ctc_helper::exponential... 11 - / - / - / - / - 0.64 / 0.06 / 0.06 / 0.05 / 1.81
void compute_probs_kernel<float, 1, ctc_helpe... 11 - / - / - / - / - 1.20 / 0.11 / 0.12 / 0.10 / 3.39
void truncate_probs_kernel<float, 1>(float*, ... 11 - / - / - / - / - 0.82 / 0.07 / 0.08 / 0.07 / 2.33
void compute_alpha_kernel<float, 32, 1>(float... 11 - / - / - / - / - 0.85 / 0.08 / 0.08 / 0.07 / 2.41
void compute_betas_and_grad_kernel<float, 32,... 11 - / - / - / - / - 26.17 / 2.38 / 2.51 / 2.17 / 74.02
MEMCPY_DtoH 11 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 0.03
grad_node_creation 11 0.16 / 0.01 / 0.02 / 0.01 / 0.39 0.00 / 0.00 / 0.00 / 0.00 / 0.00
layer_norm_grad grad_node 1023 52.55 / 0.05 / 0.11 / 0.03 / 2.13 34.25 / 0.03 / 0.05 / 0.01 / 4.01
infer_shape 1023 1.40 / 0.00 / 0.00 / 0.00 / 2.66 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1023 20.39 / 0.02 / 0.06 / 0.01 / 38.81 24.81 / 0.02 / 0.04 / 0.01 / 72.43
void paddle::operators::LayerNormBackwardPart... 1023 - / - / - / - / - 9.19 / 0.01 / 0.02 / 0.00 / 37.02
void paddle::operators::LayerNormBackwardSumG... 1023 - / - / - / - / - 3.09 / 0.00 / 0.01 / 0.00 / 12.44
void paddle::operators::LayerNormBackwardComp... 1023 - / - / - / - / - 12.54 / 0.01 / 0.03 / 0.01 / 50.53
void axpy_kernel_val<float, float>(cublasAxpyPa... 2214 - / - / - / - / - 9.44 / 0.00 / 0.02 / 0.00 / 27.57
dropout 1386 49.64 / 0.04 / 1.09 / 0.02 / 2.01 22.93 / 0.02 / 0.07 / 0.00 / 2.68
infer_shape 1386 5.15 / 0.00 / 0.02 / 0.00 / 10.38 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1386 19.56 / 0.01 / 0.07 / 0.01 / 39.39 22.93 / 0.02 / 0.07 / 0.00 / 100.00
void paddle::operators::VectorizedRandomGener... 1386 - / - / - / - / - 22.93 / 0.02 / 0.07 / 0.00 / 100.00
grad_node_creation 1386 8.06 / 0.01 / 1.06 / 0.00 / 16.23 0.00 / 0.00 / 0.00 / 0.00 / 0.00
swish_grad grad_node 396 6.96 / 0.02 / 0.04 / 0.01 / 0.28 22.41 / 0.06 / 0.09 / 0.01 / 2.62
infer_shape 396 0.24 / 0.00 / 0.02 / 0.00 / 3.40 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 396 3.25 / 0.01 / 0.03 / 0.01 / 46.66 22.41 / 0.06 / 0.09 / 0.01 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 396 - / - / - / - / - 22.41 / 0.06 / 0.09 / 0.01 / 100.00
dropout_grad grad_node 1353 27.96 / 0.02 / 1.89 / 0.01 / 1.13 21.32 / 0.02 / 0.07 / 0.00 / 2.49
infer_shape 1353 0.96 / 0.00 / 0.03 / 0.00 / 3.44 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1353 16.18 / 0.01 / 1.87 / 0.01 / 57.88 21.32 / 0.02 / 0.07 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 1353 - / - / - / - / - 21.32 / 0.02 / 0.07 / 0.00 / 100.00
adam 1860 33.69 / 0.02 / 0.07 / 0.02 / 1.37 17.98 / 0.01 / 0.07 / 0.01 / 2.10
infer_shape 1860 2.25 / 0.00 / 0.01 / 0.00 / 6.68 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1860 18.95 / 0.01 / 0.04 / 0.01 / 56.26 17.98 / 0.01 / 0.07 / 0.01 / 100.00
void paddle::operators::AdamKernelMEM<float, ... 1860 - / - / - / - / - 13.48 / 0.01 / 0.07 / 0.00 / 74.97
void paddle::operators::UpdateBetaPow<float>(... 1860 - / - / - / - / - 4.50 / 0.00 / 0.01 / 0.00 / 25.03
grad_node_creation 1860 0.11 / 0.00 / 0.00 / 0.00 / 0.33 0.00 / 0.00 / 0.00 / 0.00 / 0.00
depthwise_conv2d_grad grad_node 132 6.13 / 0.05 / 0.07 / 0.04 / 0.25 17.04 / 0.13 / 0.14 / 0.11 / 1.99
infer_shape 132 0.12 / 0.00 / 0.00 / 0.00 / 1.96 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 4.15 / 0.03 / 0.06 / 0.03 / 67.70 17.04 / 0.13 / 0.14 / 0.11 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 264 - / - / - / - / - 0.93 / 0.00 / 0.01 / 0.00 / 5.45
void paddle::operators::math::KernelDepthwise... 132 - / - / - / - / - 4.38 / 0.03 / 0.04 / 0.02 / 25.72
void paddle::operators::math::KernelDepthwise... 132 - / - / - / - / - 11.73 / 0.09 / 0.09 / 0.08 / 68.83
swish 396 10.88 / 0.03 / 0.05 / 0.02 / 0.44 15.37 / 0.04 / 0.07 / 0.00 / 1.80
infer_shape 396 0.20 / 0.00 / 0.00 / 0.00 / 1.88 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 396 4.63 / 0.01 / 0.03 / 0.01 / 42.55 15.37 / 0.04 / 0.07 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 396 - / - / - / - / - 15.37 / 0.04 / 0.07 / 0.00 / 100.00
grad_node_creation 396 1.64 / 0.00 / 0.03 / 0.00 / 15.10 0.00 / 0.00 / 0.00 / 0.00 / 0.00
set_value 956 44.53 / 0.05 / 0.12 / 0.04 / 1.81 14.98 / 0.02 / 0.03 / 0.01 / 1.75
infer_shape 956 2.76 / 0.00 / 0.02 / 0.00 / 6.21 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 956 30.37 / 0.03 / 0.09 / 0.02 / 68.20 14.98 / 0.02 / 0.03 / 0.01 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 704 - / - / - / - / - 1.63 / 0.00 / 0.02 / 0.00 / 10.90
void Eigen::internal::EigenMetaKernel<Eigen::... 704 - / - / - / - / - 1.85 / 0.00 / 0.01 / 0.00 / 12.37
void phi::funcs::VectorizedBroadcastKernel<in... 352 - / - / - / - / - 0.87 / 0.00 / 0.00 / 0.00 / 5.84
void Eigen::internal::EigenMetaKernel<Eigen::... 352 - / - / - / - / - 0.89 / 0.00 / 0.00 / 0.00 / 5.96
void Eigen::internal::EigenMetaKernel<Eigen::... 1208 - / - / - / - / - 2.87 / 0.00 / 0.00 / 0.00 / 19.14
void Eigen::internal::EigenMetaKernel<Eigen::... 1208 - / - / - / - / - 3.13 / 0.00 / 0.01 / 0.00 / 20.88
void phi::funcs::VectorizedBroadcastKernel<bo... 604 - / - / - / - / - 1.60 / 0.00 / 0.00 / 0.00 / 10.65
void Eigen::internal::EigenMetaKernel<Eigen::... 604 - / - / - / - / - 1.67 / 0.00 / 0.01 / 0.00 / 11.14
grad_node_creation 956 0.09 / 0.00 / 0.00 / 0.00 / 0.19 0.00 / 0.00 / 0.00 / 0.00 / 0.00
transpose2 1738 47.37 / 0.03 / 0.13 / 0.02 / 1.92 14.38 / 0.01 / 0.15 / 0.00 / 1.68
infer_shape 1738 2.45 / 0.00 / 0.03 / 0.00 / 5.17 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1738 20.61 / 0.01 / 0.10 / 0.01 / 43.50 14.38 / 0.01 / 0.15 / 0.00 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 11 - / - / - / - / - 1.27 / 0.12 / 0.13 / 0.10 / 8.84
void Eigen::internal::EigenMetaKernel<Eigen::... 396 - / - / - / - / - 1.59 / 0.00 / 0.01 / 0.00 / 11.03
void Eigen::internal::EigenMetaKernel<Eigen::... 803 - / - / - / - / - 7.78 / 0.01 / 0.15 / 0.00 / 54.12
void paddle::operators::TilingSwapDim1And2<fl... 528 - / - / - / - / - 3.74 / 0.01 / 0.01 / 0.01 / 26.02
grad_node_creation 1738 6.66 / 0.00 / 0.04 / 0.00 / 14.05 0.00 / 0.00 / 0.00 / 0.00 / 0.00
transpose2_grad grad_node 1738 28.58 / 0.02 / 0.05 / 0.01 / 1.16 13.89 / 0.01 / 0.15 / 0.00 / 1.62
infer_shape 1738 1.28 / 0.00 / 0.01 / 0.00 / 4.47 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1738 15.20 / 0.01 / 0.04 / 0.01 / 53.19 13.89 / 0.01 / 0.15 / 0.00 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 803 - / - / - / - / - 6.89 / 0.01 / 0.15 / 0.00 / 49.65
void Eigen::internal::EigenMetaKernel<Eigen::... 396 - / - / - / - / - 2.01 / 0.01 / 0.01 / 0.00 / 14.47
void paddle::operators::TilingSwapDim1And2<fl... 528 - / - / - / - / - 3.72 / 0.01 / 0.02 / 0.01 / 26.75
void Eigen::internal::EigenMetaKernel<Eigen::... 11 - / - / - / - / - 1.27 / 0.12 / 0.12 / 0.11 / 9.12
layer_norm 1023 40.61 / 0.04 / 0.15 / 0.03 / 1.65 13.43 / 0.01 / 0.02 / 0.01 / 1.57
infer_shape 1023 2.06 / 0.00 / 0.02 / 0.00 / 5.07 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1023 13.93 / 0.01 / 0.04 / 0.01 / 34.31 13.43 / 0.01 / 0.02 / 0.01 / 100.00
void paddle::operators::LayerNormForward<floa... 1023 - / - / - / - / - 13.43 / 0.01 / 0.02 / 0.01 / 100.00
grad_node_creation 1023 8.88 / 0.01 / 0.10 / 0.01 / 21.87 0.00 / 0.00 / 0.00 / 0.00 / 0.00
relu_grad grad_node 88 1.33 / 0.02 / 0.02 / 0.01 / 0.05 10.89 / 0.12 / 0.81 / 0.01 / 1.27
infer_shape 88 0.04 / 0.00 / 0.00 / 0.00 / 3.02 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 88 0.62 / 0.01 / 0.01 / 0.00 / 46.28 10.89 / 0.12 / 0.81 / 0.01 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 88 - / - / - / - / - 10.89 / 0.12 / 0.81 / 0.01 / 100.00
where_grad grad_node 814 16.71 / 0.02 / 0.05 / 0.01 / 0.68 10.79 / 0.01 / 0.04 / 0.00 / 1.26
infer_shape 814 0.74 / 0.00 / 0.01 / 0.00 / 4.40 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 814 6.03 / 0.01 / 0.03 / 0.01 / 36.11 10.79 / 0.01 / 0.04 / 0.00 / 100.00
void phi::WhereGradCUDAKernel<float>(int, flo... 814 - / - / - / - / - 10.79 / 0.01 / 0.04 / 0.00 / 100.00
elementwise_add 1320 40.76 / 0.03 / 0.14 / 0.03 / 1.65 9.59 / 0.01 / 0.03 / 0.00 / 1.12
infer_shape 1320 1.72 / 0.00 / 0.03 / 0.00 / 4.22 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1320 15.72 / 0.01 / 0.04 / 0.01 / 38.57 9.59 / 0.01 / 0.03 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<fl... 1188 - / - / - / - / - 8.94 / 0.01 / 0.03 / 0.00 / 93.20
void phi::funcs::VectorizedBroadcastKernel<ph... 132 - / - / - / - / - 0.65 / 0.00 / 0.01 / 0.00 / 6.80
grad_node_creation 1320 7.92 / 0.01 / 0.11 / 0.00 / 19.42 0.00 / 0.00 / 0.00 / 0.00 / 0.00
scale 2531 50.09 / 0.02 / 0.22 / 0.01 / 2.03 9.27 / 0.00 / 0.02 / 0.00 / 1.08
infer_shape 2531 5.54 / 0.00 / 0.02 / 0.00 / 11.07 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 2531 22.28 / 0.01 / 0.04 / 0.01 / 44.48 9.26 / 0.00 / 0.02 / 0.00 / 99.89
void phi::funcs::VectorizedElementwiseKernel<... 2256 - / - / - / - / - 8.38 / 0.00 / 0.02 / 0.00 / 90.52
void phi::funcs::VectorizedElementwiseKernel<... 264 - / - / - / - / - 0.85 / 0.00 / 0.00 / 0.00 / 9.20
void phi::funcs::VectorizedElementwiseKernel<... 11 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 0.28
grad_node_creation 2531 3.66 / 0.00 / 0.09 / 0.00 / 7.30 0.00 / 0.00 / 0.00 / 0.00 / 0.00
GpuMemcpySync:CUDAPinned->GPU 11 0.16 / 0.01 / 0.02 / 0.01 / 0.32 0.01 / 0.00 / 0.00 / 0.00 / 0.11
MEMCPY_HtoD 11 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 100.00
elementwise_mul 2069 47.74 / 0.02 / 0.06 / 0.02 / 1.94 9.04 / 0.00 / 0.03 / 0.00 / 1.06
infer_shape 2069 2.78 / 0.00 / 0.02 / 0.00 / 5.83 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 2069 24.36 / 0.01 / 0.04 / 0.01 / 51.02 9.04 / 0.00 / 0.03 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<fl... 2069 - / - / - / - / - 9.04 / 0.00 / 0.03 / 0.00 / 100.00
grad_node_creation 2069 1.27 / 0.00 / 0.01 / 0.00 / 2.67 0.00 / 0.00 / 0.00 / 0.00 / 0.00
squared_l2_norm 1860 29.96 / 0.02 / 0.06 / 0.01 / 1.22 7.71 / 0.00 / 0.02 / 0.00 / 0.90
infer_shape 1860 0.43 / 0.00 / 0.00 / 0.00 / 1.44 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1860 22.54 / 0.01 / 0.04 / 0.01 / 75.23 7.71 / 0.00 / 0.02 / 0.00 / 100.00
void cub::DeviceReduceSingleTileKernel<cub::D... 1263 - / - / - / - / - 3.58 / 0.00 / 0.01 / 0.00 / 46.50
void cub::DeviceReduceKernel<cub::DeviceReduc... 597 - / - / - / - / - 2.66 / 0.00 / 0.01 / 0.00 / 34.52
void cub::DeviceReduceSingleTileKernel<cub::D... 597 - / - / - / - / - 1.46 / 0.00 / 0.01 / 0.00 / 18.98
grad_node_creation 1860 0.09 / 0.00 / 0.00 / 0.00 / 0.31 0.00 / 0.00 / 0.00 / 0.00 / 0.00
relu 88 2.56 / 0.03 / 0.05 / 0.02 / 0.10 7.41 / 0.08 / 0.55 / 0.00 / 0.87
infer_shape 88 0.05 / 0.00 / 0.00 / 0.00 / 1.83 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 88 1.00 / 0.01 / 0.03 / 0.01 / 38.94 7.41 / 0.08 / 0.55 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 88 - / - / - / - / - 7.41 / 0.08 / 0.55 / 0.00 / 100.00
grad_node_creation 88 0.51 / 0.01 / 0.03 / 0.00 / 19.73 0.00 / 0.00 / 0.00 / 0.00 / 0.00
expand_v2 957 25.51 / 0.03 / 0.06 / 0.02 / 1.04 7.32 / 0.01 / 0.02 / 0.00 / 0.86
infer_shape 957 2.91 / 0.00 / 0.01 / 0.00 / 11.41 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 957 11.97 / 0.01 / 0.04 / 0.01 / 46.92 7.32 / 0.01 / 0.02 / 0.00 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 110 - / - / - / - / - 0.46 / 0.00 / 0.01 / 0.00 / 6.27
void Eigen::internal::EigenMetaKernel<Eigen::... 22 - / - / - / - / - 0.05 / 0.00 / 0.00 / 0.00 / 0.74
void Eigen::internal::EigenMetaKernel<Eigen::... 528 - / - / - / - / - 4.19 / 0.01 / 0.02 / 0.00 / 57.28
void Eigen::internal::EigenMetaKernel<Eigen::... 33 - / - / - / - / - 0.11 / 0.00 / 0.01 / 0.00 / 1.50
void Eigen::internal::EigenMetaKernel<Eigen::... 264 - / - / - / - / - 2.51 / 0.01 / 0.01 / 0.01 / 34.21
grad_node_creation 957 0.11 / 0.00 / 0.00 / 0.00 / 0.45 0.00 / 0.00 / 0.00 / 0.00 / 0.00
sum 1866 26.67 / 0.01 / 0.43 / 0.01 / 1.08 7.01 / 0.00 / 0.10 / 0.00 / 0.82
infer_shape 1866 1.79 / 0.00 / 0.16 / 0.00 / 6.71 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1866 13.79 / 0.01 / 0.11 / 0.01 / 51.70 7.01 / 0.00 / 0.10 / 0.00 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 1860 - / - / - / - / - 6.69 / 0.00 / 0.03 / 0.00 / 95.40
void Eigen::internal::EigenMetaKernel<Eigen::... 6 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 0.21
void phi::SumArrayCUDAKernel<float>(float**, ... 6 - / - / - / - / - 0.30 / 0.05 / 0.10 / 0.00 / 4.31
grad_node_creation 1866 0.08 / 0.00 / 0.00 / 0.00 / 0.28 0.00 / 0.00 / 0.00 / 0.00 / 0.00
concat 308 12.31 / 0.04 / 0.13 / 0.03 / 0.50 4.61 / 0.01 / 0.03 / 0.00 / 0.54
infer_shape 308 1.45 / 0.00 / 0.03 / 0.00 / 11.76 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 308 5.20 / 0.02 / 0.05 / 0.01 / 42.25 4.60 / 0.01 / 0.03 / 0.00 / 99.72
void phi::funcs::ConcatKernel_<float>(float c... 264 - / - / - / - / - 4.40 / 0.02 / 0.03 / 0.01 / 95.57
void phi::funcs::ConcatKernel_<int>(int const... 44 - / - / - / - / - 0.13 / 0.00 / 0.00 / 0.00 / 2.84
grad_node_creation 308 1.67 / 0.01 / 0.06 / 0.00 / 13.57 0.00 / 0.00 / 0.00 / 0.00 / 0.00
GpuMemcpySync:CUDAPinned->GPU 11 0.33 / 0.03 / 0.05 / 0.02 / 2.66 0.01 / 0.00 / 0.00 / 0.00 / 0.28
MEMCPY_HtoD 11 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 100.00
check_finite_and_unscale 3 1.58 / 0.53 / 0.62 / 0.47 / 0.06 4.56 / 1.52 / 1.52 / 1.52 / 0.53
infer_shape 3 0.66 / 0.22 / 0.24 / 0.20 / 41.56 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 3 0.46 / 0.15 / 0.17 / 0.14 / 29.31 4.56 / 1.52 / 1.52 / 1.52 / 100.00
void paddle::operators::InverseAndMemset<floa... 3 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 0.16
void paddle::operators::CheckFiniteAndUnscale... 3 - / - / - / - / - 4.54 / 1.51 / 1.52 / 1.51 / 99.68
grad_node_creation 3 0.01 / 0.00 / 0.00 / 0.00 / 0.52 0.00 / 0.00 / 0.00 / 0.00 / 0.00
where 660 20.27 / 0.03 / 0.96 / 0.02 / 0.82 3.61 / 0.01 / 0.03 / 0.00 / 0.42
infer_shape 660 1.57 / 0.00 / 0.00 / 0.00 / 7.73 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 660 6.50 / 0.01 / 0.04 / 0.01 / 32.10 3.61 / 0.01 / 0.03 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 550 - / - / - / - / - 3.35 / 0.01 / 0.03 / 0.00 / 92.81
void phi::funcs::VectorizedElementwiseKernel<... 110 - / - / - / - / - 0.26 / 0.00 / 0.00 / 0.00 / 7.19
grad_node_creation 660 4.58 / 0.01 / 0.93 / 0.00 / 22.58 0.00 / 0.00 / 0.00 / 0.00 / 0.00
slice 1221 37.82 / 0.03 / 0.08 / 0.02 / 1.54 3.52 / 0.00 / 0.00 / 0.00 / 0.41
infer_shape 1221 2.44 / 0.00 / 0.03 / 0.00 / 6.46 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1221 21.01 / 0.02 / 0.06 / 0.01 / 55.54 3.52 / 0.00 / 0.00 / 0.00 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 165 - / - / - / - / - 0.60 / 0.00 / 0.00 / 0.00 / 17.17
void Eigen::internal::EigenMetaKernel<Eigen::... 352 - / - / - / - / - 0.85 / 0.00 / 0.00 / 0.00 / 24.30
void Eigen::internal::EigenMetaKernel<Eigen::... 352 - / - / - / - / - 0.86 / 0.00 / 0.00 / 0.00 / 24.34
void Eigen::internal::EigenMetaKernel<Eigen::... 352 - / - / - / - / - 0.86 / 0.00 / 0.00 / 0.00 / 24.53
grad_node_creation 1221 0.95 / 0.00 / 0.01 / 0.00 / 2.51 0.00 / 0.00 / 0.00 / 0.00 / 0.00
concat grad_node 132 3.62 / 0.03 / 0.06 / 0.02 / 0.15 3.26 / 0.02 / 0.03 / 0.02 / 0.38
infer_shape 132 0.74 / 0.01 / 0.03 / 0.00 / 20.50 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 1.73 / 0.01 / 0.03 / 0.01 / 47.72 3.26 / 0.02 / 0.03 / 0.02 / 100.00
void phi::funcs::ConcatKernel_<float>(float c... 132 - / - / - / - / - 3.26 / 0.02 / 0.03 / 0.02 / 100.00
depthwise_conv2d 132 5.96 / 0.05 / 0.07 / 0.04 / 0.24 3.13 / 0.02 / 0.03 / 0.02 / 0.37
infer_shape 132 0.57 / 0.00 / 0.01 / 0.00 / 9.50 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 2.36 / 0.02 / 0.03 / 0.02 / 39.55 3.13 / 0.02 / 0.03 / 0.02 / 100.00
void paddle::operators::math::KernelDepthwise... 132 - / - / - / - / - 3.13 / 0.02 / 0.03 / 0.02 / 100.00
grad_node_creation 132 0.86 / 0.01 / 0.01 / 0.01 / 14.48 0.00 / 0.00 / 0.00 / 0.00 / 0.00
warpctc_grad grad_node 11 0.39 / 0.04 / 0.05 / 0.03 / 0.02 3.12 / 0.28 / 0.30 / 0.26 / 0.36
infer_shape 11 0.01 / 0.00 / 0.00 / 0.00 / 2.90 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 0.23 / 0.02 / 0.02 / 0.02 / 59.43 3.12 / 0.28 / 0.30 / 0.26 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 11 - / - / - / - / - 1.44 / 0.13 / 0.14 / 0.12 / 46.03
void Eigen::internal::EigenMetaKernel<Eigen::... 11 - / - / - / - / - 1.68 / 0.15 / 0.16 / 0.14 / 53.97
split 132 5.24 / 0.04 / 0.06 / 0.04 / 0.21 3.06 / 0.02 / 0.03 / 0.02 / 0.36
infer_shape 132 0.36 / 0.00 / 0.00 / 0.00 / 6.89 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 2.13 / 0.02 / 0.04 / 0.01 / 40.70 3.06 / 0.02 / 0.03 / 0.02 / 100.00
void phi::funcs::SplitKernel_<float>(float co... 132 - / - / - / - / - 3.06 / 0.02 / 0.03 / 0.02 / 100.00
grad_node_creation 132 1.03 / 0.01 / 0.03 / 0.01 / 19.67 0.00 / 0.00 / 0.00 / 0.00 / 0.00
fill_any_like 946 19.60 / 0.02 / 0.05 / 0.02 / 0.80 3.04 / 0.00 / 0.01 / 0.00 / 0.36
infer_shape 946 0.53 / 0.00 / 0.00 / 0.00 / 2.72 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 946 9.65 / 0.01 / 0.04 / 0.01 / 49.26 3.04 / 0.00 / 0.01 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 572 - / - / - / - / - 2.14 / 0.00 / 0.01 / 0.00 / 70.42
void phi::funcs::VectorizedElementwiseKernel<... 110 - / - / - / - / - 0.23 / 0.00 / 0.00 / 0.00 / 7.58
void phi::funcs::VectorizedElementwiseKernel<... 264 - / - / - / - / - 0.67 / 0.00 / 0.00 / 0.00 / 22.00
grad_node_creation 946 0.29 / 0.00 / 0.00 / 0.00 / 1.50 0.00 / 0.00 / 0.00 / 0.00 / 0.00
elementwise_mul_grad grad_node 176 5.38 / 0.03 / 0.12 / 0.02 / 0.22 2.83 / 0.02 / 0.03 / 0.00 / 0.33
infer_shape 176 0.14 / 0.00 / 0.01 / 0.00 / 2.66 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 176 3.04 / 0.02 / 0.08 / 0.01 / 56.47 2.83 / 0.02 / 0.03 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<fl... 44 - / - / - / - / - 0.17 / 0.00 / 0.01 / 0.00 / 5.99
void phi::funcs::VectorizedBroadcastKernel<fl... 132 - / - / - / - / - 2.66 / 0.02 / 0.03 / 0.02 / 94.01
scale grad_node 616 10.22 / 0.02 / 0.04 / 0.01 / 0.41 2.27 / 0.00 / 0.01 / 0.00 / 0.27
infer_shape 616 1.58 / 0.00 / 0.03 / 0.00 / 15.47 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 616 4.79 / 0.01 / 0.02 / 0.00 / 46.91 2.27 / 0.00 / 0.01 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 352 - / - / - / - / - 1.41 / 0.00 / 0.01 / 0.00 / 62.01
void phi::funcs::VectorizedElementwiseKernel<... 264 - / - / - / - / - 0.86 / 0.00 / 0.01 / 0.00 / 37.99
pad3d_grad grad_node 132 3.38 / 0.03 / 0.04 / 0.02 / 0.14 2.18 / 0.02 / 0.02 / 0.01 / 0.26
infer_shape 132 0.10 / 0.00 / 0.00 / 0.00 / 2.98 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 2.26 / 0.02 / 0.03 / 0.01 / 66.83 2.18 / 0.02 / 0.02 / 0.01 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 132 - / - / - / - / - 0.54 / 0.00 / 0.01 / 0.00 / 24.93
void phi::Pad3DGradConstNCDHW<float>(int, flo... 132 - / - / - / - / - 1.64 / 0.01 / 0.01 / 0.01 / 75.07
elementwise_sub 11 2.71 / 0.25 / 0.27 / 0.23 / 0.11 2.12 / 0.19 / 0.21 / 0.18 / 0.25
GpuMemcpySync:CUDAPinned->GPU 11 2.24 / 0.20 / 0.22 / 0.19 / 82.80 2.04 / 0.19 / 0.20 / 0.17 / 96.36
MEMCPY_HtoD 11 - / - / - / - / - 2.04 / 0.19 / 0.20 / 0.17 / 100.00
infer_shape 11 0.02 / 0.00 / 0.00 / 0.00 / 0.71 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 0.19 / 0.02 / 0.02 / 0.02 / 7.00 0.08 / 0.01 / 0.01 / 0.01 / 3.64
void phi::funcs::VectorizedBroadcastKernel<fl... 11 - / - / - / - / - 0.08 / 0.01 / 0.01 / 0.01 / 100.00
grad_node_creation 11 0.00 / 0.00 / 0.00 / 0.00 / 0.05 0.00 / 0.00 / 0.00 / 0.00 / 0.00
pad3d 132 4.19 / 0.03 / 0.07 / 0.03 / 0.17 2.05 / 0.02 / 0.02 / 0.01 / 0.24
infer_shape 132 0.37 / 0.00 / 0.00 / 0.00 / 8.78 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 1.78 / 0.01 / 0.02 / 0.01 / 42.37 2.05 / 0.02 / 0.02 / 0.01 / 100.00
void phi::Pad3DConstNCDHW<float>(int, float c... 132 - / - / - / - / - 2.05 / 0.02 / 0.02 / 0.01 / 100.00
grad_node_creation 132 0.85 / 0.01 / 0.02 / 0.00 / 20.33 0.00 / 0.00 / 0.00 / 0.00 / 0.00
flip 352 13.52 / 0.04 / 0.07 / 0.03 / 0.55 1.98 / 0.01 / 0.02 / 0.01 / 0.23
infer_shape 352 0.93 / 0.00 / 0.02 / 0.00 / 6.87 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 352 9.08 / 0.03 / 0.05 / 0.02 / 67.14 1.98 / 0.01 / 0.02 / 0.01 / 100.00
void phi::flip_cuda_kernel<int>(int, int cons... 352 - / - / - / - / - 1.11 / 0.00 / 0.00 / 0.00 / 56.19
grad_node_creation 352 0.04 / 0.00 / 0.00 / 0.00 / 0.28 0.00 / 0.00 / 0.00 / 0.00 / 0.00
unsqueeze2_grad grad_node 1188 14.68 / 0.01 / 0.04 / 0.01 / 0.60 1.56 / 0.00 / 0.01 / 0.00 / 0.18
infer_shape 1188 0.75 / 0.00 / 0.02 / 0.00 / 5.13 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1188 1.36 / 0.00 / 0.02 / 0.00 / 9.24 0.00 / 0.00 / 0.00 / 0.00 / 0.00
void axpy_kernel_val<float, float>(cublasAxpyPa... 480 - / - / - / - / - 1.56 / 0.00 / 0.01 / 0.00 / 100.00
softmax_grad grad_node 264 5.32 / 0.02 / 0.05 / 0.01 / 0.22 1.46 / 0.01 / 0.02 / 0.00 / 0.17
infer_shape 264 0.60 / 0.00 / 0.00 / 0.00 / 11.27 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 264 2.30 / 0.01 / 0.04 / 0.01 / 43.18 1.46 / 0.01 / 0.02 / 0.00 / 100.00
void phi::WarpSoftmaxBackward<float, int2, fl... 54 - / - / - / - / - 0.33 / 0.01 / 0.01 / 0.00 / 22.43
void phi::WarpSoftmaxBackward<float, int2, fl... 60 - / - / - / - / - 0.18 / 0.00 / 0.00 / 0.00 / 12.01
void phi::WarpSoftmaxBackward<float, float, f... 108 - / - / - / - / - 0.72 / 0.01 / 0.02 / 0.00 / 49.38
void phi::WarpSoftmaxBackward<float, int4, fl... 36 - / - / - / - / - 0.22 / 0.01 / 0.01 / 0.00 / 15.00
void phi::WarpSoftmaxBackward<float, float, f... 6 - / - / - / - / - 0.02 / 0.00 / 0.00 / 0.00 / 1.18
sigmoid_grad grad_node 132 2.28 / 0.02 / 0.04 / 0.01 / 0.09 1.42 / 0.01 / 0.01 / 0.01 / 0.17
infer_shape 132 0.06 / 0.00 / 0.00 / 0.00 / 2.79 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 1.10 / 0.01 / 0.01 / 0.01 / 48.25 1.42 / 0.01 / 0.01 / 0.01 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 132 - / - / - / - / - 1.42 / 0.01 / 0.01 / 0.01 / 100.00
softmax 264 8.15 / 0.03 / 0.06 / 0.03 / 0.33 1.29 / 0.00 / 0.01 / 0.00 / 0.15
infer_shape 264 0.64 / 0.00 / 0.02 / 0.00 / 7.90 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 264 2.87 / 0.01 / 0.03 / 0.01 / 35.29 1.29 / 0.00 / 0.01 / 0.00 / 100.00
void phi::WarpSoftmaxForward<float, int2, flo... 54 - / - / - / - / - 0.29 / 0.01 / 0.01 / 0.00 / 22.63
void phi::WarpSoftmaxForward<float, int2, flo... 60 - / - / - / - / - 0.17 / 0.00 / 0.00 / 0.00 / 13.31
void phi::WarpSoftmaxForward<float, float, fl... 108 - / - / - / - / - 0.61 / 0.01 / 0.01 / 0.00 / 47.15
void phi::WarpSoftmaxForward<float, int4, flo... 36 - / - / - / - / - 0.20 / 0.01 / 0.01 / 0.00 / 15.63
void phi::WarpSoftmaxForward<float, float, fl... 6 - / - / - / - / - 0.02 / 0.00 / 0.00 / 0.00 / 1.27
grad_node_creation 264 1.17 / 0.00 / 0.01 / 0.00 / 14.39 0.00 / 0.00 / 0.00 / 0.00 / 0.00
equal 341 10.65 / 0.03 / 0.16 / 0.02 / 0.43 1.21 / 0.00 / 0.02 / 0.00 / 0.14
infer_shape 341 1.14 / 0.00 / 0.02 / 0.00 / 10.74 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 341 5.17 / 0.02 / 0.04 / 0.01 / 48.58 1.21 / 0.00 / 0.02 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<lo... 11 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 2.44
void phi::funcs::VectorizedBroadcastKernel<in... 66 - / - / - / - / - 0.21 / 0.00 / 0.02 / 0.00 / 17.44
void phi::funcs::VectorizedBroadcastKernel<bo... 264 - / - / - / - / - 0.97 / 0.00 / 0.00 / 0.00 / 80.12
grad_node_creation 341 0.05 / 0.00 / 0.00 / 0.00 / 0.48 0.00 / 0.00 / 0.00 / 0.00 / 0.00
log_softmax_grad grad_node 22 0.50 / 0.02 / 0.04 / 0.01 / 0.02 1.05 / 0.05 / 0.05 / 0.05 / 0.12
infer_shape 22 0.02 / 0.00 / 0.00 / 0.00 / 4.02 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.32 / 0.01 / 0.03 / 0.01 / 63.97 1.05 / 0.05 / 0.05 / 0.05 / 100.00
void cudnn::softmax_bw_kernel<2, float, float... 22 - / - / - / - / - 1.05 / 0.05 / 0.05 / 0.05 / 100.00
sigmoid 132 3.60 / 0.03 / 0.05 / 0.02 / 0.15 0.93 / 0.01 / 0.01 / 0.01 / 0.11
infer_shape 132 0.07 / 0.00 / 0.00 / 0.00 / 1.82 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 132 1.45 / 0.01 / 0.01 / 0.01 / 40.14 0.93 / 0.01 / 0.01 / 0.01 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 132 - / - / - / - / - 0.93 / 0.01 / 0.01 / 0.01 / 100.00
grad_node_creation 132 0.68 / 0.01 / 0.01 / 0.00 / 18.92 0.00 / 0.00 / 0.00 / 0.00 / 0.00
fill_constant 677 14.51 / 0.02 / 0.05 / 0.01 / 0.59 0.92 / 0.00 / 0.00 / 0.00 / 0.11
infer_shape 677 0.55 / 0.00 / 0.00 / 0.00 / 3.78 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 677 6.45 / 0.01 / 0.03 / 0.00 / 44.44 0.92 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 132 - / - / - / - / - 0.27 / 0.00 / 0.00 / 0.00 / 29.44
void phi::funcs::VectorizedElementwiseKernel<... 297 - / - / - / - / - 0.62 / 0.00 / 0.00 / 0.00 / 66.70
void phi::funcs::VectorizedElementwiseKernel<... 17 - / - / - / - / - 0.04 / 0.00 / 0.00 / 0.00 / 3.86
grad_node_creation 677 0.06 / 0.00 / 0.00 / 0.00 / 0.42 0.00 / 0.00 / 0.00 / 0.00 / 0.00
reduce_sum 110 5.28 / 0.05 / 0.08 / 0.03 / 0.21 0.76 / 0.01 / 0.01 / 0.00 / 0.09
infer_shape 110 0.44 / 0.00 / 0.01 / 0.00 / 8.31 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 110 3.41 / 0.03 / 0.07 / 0.02 / 64.53 0.76 / 0.01 / 0.01 / 0.00 / 100.00
void cub::DeviceReduceSingleTileKernel<cub::D... 11 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 4.06
void phi::funcs::VectorizedElementwiseKernel<... 44 - / - / - / - / - 0.11 / 0.00 / 0.00 / 0.00 / 13.96
void cub::DeviceReduceSingleTileKernel<cub::D... 44 - / - / - / - / - 0.12 / 0.00 / 0.00 / 0.00 / 15.26
void cub::DeviceReduceKernel<cub::DeviceReduc... 22 - / - / - / - / - 0.21 / 0.01 / 0.01 / 0.01 / 28.16
void cub::DeviceReduceSingleTileKernel<cub::D... 22 - / - / - / - / - 0.07 / 0.00 / 0.00 / 0.00 / 9.06
void phi::funcs::VectorizedElementwiseKernel<... 33 - / - / - / - / - 0.09 / 0.00 / 0.00 / 0.00 / 11.94
void phi::funcs::ReduceHigherDimKernel<long, ... 22 - / - / - / - / - 0.10 / 0.00 / 0.00 / 0.00 / 13.27
void phi::funcs::ReduceAnyKernel<long, long, ... 11 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 4.28
grad_node_creation 110 0.26 / 0.00 / 0.01 / 0.00 / 4.90 0.00 / 0.00 / 0.00 / 0.00 / 0.00
kldiv_loss 22 0.74 / 0.03 / 0.05 / 0.03 / 0.03 0.69 / 0.03 / 0.03 / 0.03 / 0.08
infer_shape 22 0.07 / 0.00 / 0.00 / 0.00 / 9.09 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.24 / 0.01 / 0.01 / 0.01 / 32.61 0.69 / 0.03 / 0.03 / 0.03 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 22 - / - / - / - / - 0.69 / 0.03 / 0.03 / 0.03 / 100.00
grad_node_creation 22 0.16 / 0.01 / 0.02 / 0.01 / 21.96 0.00 / 0.00 / 0.00 / 0.00 / 0.00
lookup_table_v2_grad grad_node 22 0.78 / 0.04 / 0.06 / 0.02 / 0.03 0.65 / 0.03 / 0.04 / 0.01 / 0.08
infer_shape 22 0.01 / 0.00 / 0.00 / 0.00 / 1.61 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.36 / 0.02 / 0.03 / 0.01 / 46.96 0.32 / 0.01 / 0.02 / 0.01 / 49.28
MEMSET 22 - / - / - / - / - 0.18 / 0.01 / 0.01 / 0.01 / 57.26
void phi::EmbeddingGrad<float, int>(float*, f... 22 - / - / - / - / - 0.14 / 0.01 / 0.01 / 0.01 / 42.74
void axpy_kernel_val<float, float>(cublasAxpyPa... 16 - / - / - / - / - 0.33 / 0.02 / 0.02 / 0.02 / 50.72
kldiv_loss_grad grad_node 22 0.35 / 0.02 / 0.02 / 0.01 / 0.01 0.61 / 0.03 / 0.03 / 0.02 / 0.07
infer_shape 22 0.02 / 0.00 / 0.00 / 0.00 / 4.57 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.16 / 0.01 / 0.01 / 0.01 / 45.80 0.61 / 0.03 / 0.03 / 0.02 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 22 - / - / - / - / - 0.61 / 0.03 / 0.03 / 0.02 / 100.00
log_softmax 22 0.80 / 0.04 / 0.06 / 0.03 / 0.03 0.42 / 0.02 / 0.02 / 0.02 / 0.05
infer_shape 22 0.06 / 0.00 / 0.00 / 0.00 / 7.23 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.44 / 0.02 / 0.04 / 0.01 / 54.53 0.42 / 0.02 / 0.02 / 0.02 / 100.00
void cudnn::ops::softmax_fw_kernel_resident<2... 22 - / - / - / - / - 0.42 / 0.02 / 0.02 / 0.02 / 100.00
grad_node_creation 22 0.09 / 0.00 / 0.01 / 0.00 / 11.53 0.00 / 0.00 / 0.00 / 0.00 / 0.00
one_hot_v2 22 0.74 / 0.03 / 0.05 / 0.03 / 0.03 0.32 / 0.01 / 0.02 / 0.01 / 0.04
infer_shape 22 0.08 / 0.00 / 0.00 / 0.00 / 10.29 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.43 / 0.02 / 0.03 / 0.02 / 57.69 0.32 / 0.01 / 0.02 / 0.01 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 22 - / - / - / - / - 0.26 / 0.01 / 0.01 / 0.01 / 81.50
void phi::FillOutputKernel<int, float>(int co... 22 - / - / - / - / - 0.06 / 0.00 / 0.00 / 0.00 / 18.50
grad_node_creation 22 0.00 / 0.00 / 0.00 / 0.00 / 0.27 0.00 / 0.00 / 0.00 / 0.00 / 0.00
masked_select 22 1.26 / 0.06 / 0.11 / 0.04 / 0.05 0.32 / 0.01 / 0.02 / 0.01 / 0.04
infer_shape 22 0.04 / 0.00 / 0.00 / 0.00 / 3.14 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.91 / 0.04 / 0.08 / 0.03 / 72.28 0.32 / 0.01 / 0.02 / 0.01 / 100.00
void phi::funcs::GetBlockCountKernel<bool, lo... 22 - / - / - / - / - 0.06 / 0.00 / 0.00 / 0.00 / 18.43
void phi::funcs::CumsumOneBlock<long, long, p... 22 - / - / - / - / - 0.10 / 0.00 / 0.00 / 0.00 / 30.95
void phi::funcs::SelectKernel<bool, int, long... 11 - / - / - / - / - 0.06 / 0.01 / 0.01 / 0.01 / 18.79
void phi::funcs::SelectKernel<bool, long, lon... 11 - / - / - / - / - 0.07 / 0.01 / 0.01 / 0.01 / 21.44
grad_node_creation 22 0.08 / 0.00 / 0.02 / 0.00 / 6.41 0.00 / 0.00 / 0.00 / 0.00 / 0.00
reduce_sum_grad grad_node 33 0.63 / 0.02 / 0.03 / 0.01 / 0.03 0.30 / 0.01 / 0.02 / 0.00 / 0.03
infer_shape 33 0.04 / 0.00 / 0.00 / 0.00 / 6.22 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 33 0.37 / 0.01 / 0.02 / 0.01 / 58.58 0.30 / 0.01 / 0.02 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<fl... 33 - / - / - / - / - 0.30 / 0.01 / 0.02 / 0.00 / 100.00
arg_max 11 0.32 / 0.03 / 0.03 / 0.03 / 0.01 0.28 / 0.03 / 0.03 / 0.03 / 0.03
infer_shape 11 0.05 / 0.00 / 0.00 / 0.00 / 14.10 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 0.14 / 0.01 / 0.01 / 0.01 / 44.96 0.28 / 0.03 / 0.03 / 0.03 / 100.00
void phi::ArgCUDAKernel<float, long, cub::Arg... 11 - / - / - / - / - 0.28 / 0.03 / 0.03 / 0.03 / 100.00
grad_node_creation 11 0.00 / 0.00 / 0.00 / 0.00 / 1.12 0.00 / 0.00 / 0.00 / 0.00 / 0.00
lookup_table_v2 22 0.87 / 0.04 / 0.07 / 0.03 / 0.04 0.12 / 0.01 / 0.01 / 0.00 / 0.01
infer_shape 22 0.03 / 0.00 / 0.00 / 0.00 / 3.23 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.30 / 0.01 / 0.04 / 0.01 / 34.47 0.12 / 0.01 / 0.01 / 0.00 / 100.00
void phi::EmbeddingFW<float, int, false>(floa... 22 - / - / - / - / - 0.12 / 0.01 / 0.01 / 0.00 / 100.00
grad_node_creation 22 0.23 / 0.01 / 0.02 / 0.01 / 26.42 0.00 / 0.00 / 0.00 / 0.00 / 0.00
reduce_max 33 32.46 / 0.98 / 4.90 / 0.04 / 1.32 0.10 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 33 0.17 / 0.01 / 0.01 / 0.00 / 0.53 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 33 1.03 / 0.03 / 0.05 / 0.02 / 3.17 0.09 / 0.00 / 0.00 / 0.00 / 88.40
void cub::DeviceReduceSingleTileKernel<cub::D... 33 - / - / - / - / - 0.09 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 33 0.01 / 0.00 / 0.00 / 0.00 / 0.02 0.00 / 0.00 / 0.00 / 0.00 / 0.00
GpuMemcpySync:CUDAPinned->GPU 11 30.52 / 2.77 / 4.82 / 0.03 / 94.03 0.01 / 0.00 / 0.00 / 0.00 / 11.60
MEMCPY_HtoD 11 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 100.00
greater_equal 33 0.99 / 0.03 / 0.04 / 0.03 / 0.04 0.09 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 33 0.09 / 0.00 / 0.00 / 0.00 / 8.96 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 33 0.52 / 0.02 / 0.02 / 0.01 / 52.45 0.09 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<lo... 33 - / - / - / - / - 0.09 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 33 0.00 / 0.00 / 0.00 / 0.00 / 0.32 0.00 / 0.00 / 0.00 / 0.00 / 0.00
logical_not 33 0.73 / 0.02 / 0.03 / 0.02 / 0.03 0.09 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 33 0.03 / 0.00 / 0.00 / 0.00 / 3.83 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 33 0.39 / 0.01 / 0.01 / 0.01 / 53.42 0.09 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<bo... 33 - / - / - / - / - 0.09 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 33 0.00 / 0.00 / 0.00 / 0.00 / 0.29 0.00 / 0.00 / 0.00 / 0.00 / 0.00
bitwise_and 22 0.56 / 0.03 / 0.04 / 0.02 / 0.02 0.09 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 22 0.03 / 0.00 / 0.00 / 0.00 / 5.87 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.29 / 0.01 / 0.02 / 0.01 / 52.23 0.09 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<bo... 22 - / - / - / - / - 0.09 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 22 0.00 / 0.00 / 0.00 / 0.00 / 0.33 0.00 / 0.00 / 0.00 / 0.00 / 0.00
strided_slice 22 0.66 / 0.03 / 0.04 / 0.02 / 0.03 0.08 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 22 0.10 / 0.00 / 0.01 / 0.00 / 15.30 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.28 / 0.01 / 0.02 / 0.01 / 41.90 0.08 / 0.00 / 0.00 / 0.00 / 100.00
void Eigen::internal::EigenMetaKernel<Eigen::... 22 - / - / - / - / - 0.08 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 22 0.00 / 0.00 / 0.00 / 0.00 / 0.29 0.00 / 0.00 / 0.00 / 0.00 / 0.00
range 33 1.10 / 0.03 / 0.07 / 0.03 / 0.04 0.08 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 33 0.09 / 0.00 / 0.00 / 0.00 / 8.61 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 33 0.49 / 0.01 / 0.02 / 0.01 / 45.00 0.08 / 0.00 / 0.00 / 0.00 / 100.00
void phi::Range<long>(long, long, long, long*) 33 - / - / - / - / - 0.08 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 33 0.00 / 0.00 / 0.00 / 0.00 / 0.40 0.00 / 0.00 / 0.00 / 0.00 / 0.00
tril_triu 22 0.50 / 0.02 / 0.03 / 0.02 / 0.02 0.05 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 22 0.06 / 0.00 / 0.00 / 0.00 / 12.90 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 22 0.22 / 0.01 / 0.01 / 0.01 / 43.52 0.05 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::ForRangeElemwiseOpGridIsOne<... 22 - / - / - / - / - 0.05 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 22 0.00 / 0.00 / 0.00 / 0.00 / 0.38 0.00 / 0.00 / 0.00 / 0.00 / 0.00
logical_and 11 0.30 / 0.03 / 0.03 / 0.03 / 0.01 0.05 / 0.00 / 0.00 / 0.00 / 0.01
infer_shape 11 0.02 / 0.00 / 0.00 / 0.00 / 5.19 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 0.16 / 0.01 / 0.02 / 0.01 / 52.68 0.05 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<bo... 11 - / - / - / - / - 0.05 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 11 0.00 / 0.00 / 0.00 / 0.00 / 0.34 0.00 / 0.00 / 0.00 / 0.00 / 0.00
not_equal 11 0.32 / 0.03 / 0.03 / 0.03 / 0.01 0.04 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 11 0.03 / 0.00 / 0.00 / 0.00 / 10.61 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 0.15 / 0.01 / 0.01 / 0.01 / 46.05 0.04 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<in... 11 - / - / - / - / - 0.04 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 11 0.00 / 0.00 / 0.00 / 0.00 / 0.62 0.00 / 0.00 / 0.00 / 0.00 / 0.00
bitwise_not 11 0.23 / 0.02 / 0.02 / 0.02 / 0.01 0.03 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 11 0.01 / 0.00 / 0.00 / 0.00 / 3.65 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 0.11 / 0.01 / 0.01 / 0.01 / 47.46 0.03 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 11 - / - / - / - / - 0.03 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 11 0.00 / 0.00 / 0.00 / 0.00 / 0.36 0.00 / 0.00 / 0.00 / 0.00 / 0.00
randint 11 12.02 / 1.09 / 1.36 / 0.92 / 0.49 0.01 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 11 0.02 / 0.00 / 0.00 / 0.00 / 0.13 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 11.88 / 1.08 / 1.35 / 0.91 / 98.81 0.01 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 11 0.00 / 0.00 / 0.00 / 0.00 / 0.01 0.00 / 0.00 / 0.00 / 0.00 / 0.00
elementwise_div 3 0.08 / 0.03 / 0.03 / 0.03 / 0.00 0.01 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 3 0.00 / 0.00 / 0.00 / 0.00 / 3.32 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 3 0.05 / 0.02 / 0.02 / 0.02 / 59.12 0.01 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<fl... 3 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 3 0.00 / 0.00 / 0.00 / 0.00 / 0.24 0.00 / 0.00 / 0.00 / 0.00 / 0.00
elementwise_max 3 0.09 / 0.03 / 0.03 / 0.03 / 0.00 0.01 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 3 0.00 / 0.00 / 0.00 / 0.00 / 3.93 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 3 0.05 / 0.02 / 0.02 / 0.02 / 55.78 0.01 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedBroadcastKernel<fl... 3 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 3 0.00 / 0.00 / 0.00 / 0.00 / 0.32 0.00 / 0.00 / 0.00 / 0.00 / 0.00
sqrt 3 0.14 / 0.05 / 0.10 / 0.02 / 0.01 0.01 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 3 0.00 / 0.00 / 0.00 / 0.00 / 1.29 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 3 0.11 / 0.04 / 0.09 / 0.01 / 81.95 0.01 / 0.00 / 0.00 / 0.00 / 100.00
void phi::funcs::VectorizedElementwiseKernel<... 3 - / - / - / - / - 0.01 / 0.00 / 0.00 / 0.00 / 100.00
grad_node_creation 3 0.00 / 0.00 / 0.00 / 0.00 / 0.11 0.00 / 0.00 / 0.00 / 0.00 / 0.00
reshape2_grad grad_node 1221 9.01 / 0.01 / 0.03 / 0.00 / 0.37 0.00 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 1221 1.02 / 0.00 / 0.00 / 0.00 / 11.37 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1221 1.14 / 0.00 / 0.01 / 0.00 / 12.70 0.00 / 0.00 / 0.00 / 0.00 / 0.00
squeeze2_grad grad_node 539 5.17 / 0.01 / 0.03 / 0.01 / 0.21 0.00 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 539 0.45 / 0.00 / 0.02 / 0.00 / 8.66 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 539 0.99 / 0.00 / 0.02 / 0.00 / 19.17 0.00 / 0.00 / 0.00 / 0.00 / 0.00
squeeze2 682 13.75 / 0.02 / 0.05 / 0.02 / 0.56 0.00 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 682 2.44 / 0.00 / 0.02 / 0.00 / 17.77 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 682 1.85 / 0.00 / 0.03 / 0.00 / 13.49 0.00 / 0.00 / 0.00 / 0.00 / 0.00
grad_node_creation 682 2.08 / 0.00 / 0.02 / 0.00 / 15.14 0.00 / 0.00 / 0.00 / 0.00 / 0.00
reshape2 1265 23.11 / 0.02 / 0.06 / 0.01 / 0.94 0.00 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 1265 2.45 / 0.00 / 0.02 / 0.00 / 10.61 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1265 2.97 / 0.00 / 0.02 / 0.00 / 12.83 0.00 / 0.00 / 0.00 / 0.00 / 0.00
grad_node_creation 1265 4.57 / 0.00 / 0.04 / 0.00 / 19.76 0.00 / 0.00 / 0.00 / 0.00 / 0.00
unsqueeze2 1617 27.60 / 0.02 / 0.05 / 0.01 / 1.12 0.00 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 1617 4.99 / 0.00 / 0.02 / 0.00 / 18.06 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 1617 3.17 / 0.00 / 0.03 / 0.00 / 11.47 0.00 / 0.00 / 0.00 / 0.00 / 0.00
grad_node_creation 1617 4.32 / 0.00 / 0.02 / 0.00 / 15.65 0.00 / 0.00 / 0.00 / 0.00 / 0.00
shape 11 0.20 / 0.02 / 0.02 / 0.02 / 0.01 0.00 / 0.00 / 0.00 / 0.00 / 0.00
infer_shape 11 0.03 / 0.00 / 0.00 / 0.00 / 12.92 0.00 / 0.00 / 0.00 / 0.00 / 0.00
compute 11 0.04 / 0.00 / 0.00 / 0.00 / 18.90 0.00 / 0.00 / 0.00 / 0.00 / 0.00
grad_node_creation 11 0.00 / 0.00 / 0.00 / 0.00 / 0.35 0.00 / 0.00 / 0.00 / 0.00 / 0.00
---------------------------------------------------- ------ ---------------------------------------- ----------------------------------------
@Caozhou1995 有没有可能是我的显卡是1080ti的原因呢?这里有个issue说1080ti不支持float16计算:#33740
刚才看了下,我测试的事2080ti的显卡,如果是1080ti会报错,信息如下:
For float16, amp only support NVIDIA GPU with Compute Capability 7.0 or higher, current GPU is: NVIDIA GeForce GTX 1080 Ti, with Compute Capability: 6.1.
请提出你的问题 Please ask your question
参考的文档:https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/performance_improving/amp_cn.html 使用的模型包括deepspeech2、conformer结合transformer的u2,这两个模型都没有增加速度,conformer速度反而慢了近一倍。
没有使用自动混合精度训练:
开启了amp: