PaddlePaddle / Paddle

PArallel Distributed Deep LEarning: Machine Learning Framework from Industrial Practice (『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署)
http://www.paddlepaddle.org/
Apache License 2.0
22.27k stars 5.6k forks source link

使用自动混合精度训练,速度不增反降 #48321

Closed yeyupiaoling closed 1 year ago

yeyupiaoling commented 1 year ago

请提出你的问题 Please ask your question

参考的文档:https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/performance_improving/amp_cn.html 使用的模型包括deepspeech2、conformer结合transformer的u2,这两个模型都没有增加速度,conformer速度反而慢了近一倍。

没有使用自动混合精度训练:

reader_cost: 0.001, batch_cost: 0.166, ips: 49.185 speech/sec
reader_cost: 0.001, batch_cost: 0.166, ips: 48.298 speech/sec
reader_cost: 0.000, batch_cost: 0.166, ips: 48.331 speech/sec

开启了amp:

reader_cost: 0.001, batch_cost: 0.253, ips: 32.400 speech/sec
reader_cost: 0.000, batch_cost: 0.253, ips: 32.065 speech/sec
reader_cost: 0.000, batch_cost: 0.252, ips: 31.919 speech/sec
paddle-bot[bot] commented 1 year ago

您好,我们已经收到了您的问题,会安排技术人员尽快解答您的问题,请耐心等待。请您再次检查是否提供了清晰的问题描述、复现代码、环境&版本、报错信息等。同时,您也可以通过查看官网API文档常见问题历史IssueAI社区来寻求解答。祝您生活愉快~

Hi! We've received your issue and please be patient to get responded. We will arrange technicians to answer your questions as soon as possible. Please make sure that you have posted enough message to demo your request. You may also check out the APIFAQGithub Issue and AI community to get the answer.Have a nice day!

Caozhou1995 commented 1 year ago

自动混合精度不一定能够提速,可以先参考适用场景说明进行排查:https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/performance_improving/amp_cn.html#shiyongchangjingshuoming

yeyupiaoling commented 1 year ago

@Caozhou1995 有挺多的 matmul、conv 了,应该有较大的提升才对。就算速度增加,也不至于降这么多。

----------------------------------------------------------------Operator Summary----------------------------------------------------------------
Time unit: ms
----------------------------------------------------  ------  ----------------------------------------  ----------------------------------------  
Name                                                  Calls   CPU Total / Avg / Max / Min / Ratio(%)    GPU Total / Avg / Max / Min / Ratio(%)    
----------------------------------------------------  ------  ----------------------------------------  ----------------------------------------  
-----------------------------------------------------------Thread: All threads merged-----------------------------------------------------------
matmul_v2_grad grad_node                              2552    174.52 / 0.07 / 0.45 / 0.02 / 11.05       214.61 / 0.08 / 0.43 / 0.01 / 26.50       
  infer_shape                                         2552    5.70 / 0.00 / 0.03 / 0.00 / 3.26          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             2552    132.38 / 0.05 / 0.44 / 0.01 / 75.85       203.81 / 0.08 / 0.42 / 0.01 / 94.97       
    volta_sgemm_128x128_tn                            53      - / - / - / - / -                         5.22 / 0.10 / 0.19 / 0.08 / 2.56          
    MEMSET                                            1363    - / - / - / - / -                         0.98 / 0.00 / 0.00 / 0.00 / 0.48          
    volta_sgemm_128x64_nt                             478     - / - / - / - / -                         39.09 / 0.08 / 0.19 / 0.07 / 19.18        
    volta_sgemm_64x64_tn                              207     - / - / - / - / -                         9.62 / 0.05 / 0.18 / 0.01 / 4.72          
    volta_sgemm_128x64_tn                             984     - / - / - / - / -                         54.62 / 0.06 / 0.21 / 0.02 / 26.80        
    volta_sgemm_32x128_nt                             792     - / - / - / - / -                         14.66 / 0.02 / 0.03 / 0.01 / 7.19         
    void splitKreduce_kernel<32, 16, int, float, ...  798     - / - / - / - / -                         2.89 / 0.00 / 0.01 / 0.00 / 1.42          
    volta_sgemm_32x32_sliced1x4_nt                    528     - / - / - / - / -                         4.15 / 0.01 / 0.02 / 0.01 / 2.03          
    volta_sgemm_32x32_sliced1x4_nn                    8448    - / - / - / - / -                         45.68 / 0.01 / 0.02 / 0.00 / 22.41        
    volta_sgemm_64x64_nt                              682     - / - / - / - / -                         6.78 / 0.01 / 0.03 / 0.01 / 3.33          
    void phi::funcs::ReduceHigherDimKernel<float,...  132     - / - / - / - / -                         0.42 / 0.00 / 0.01 / 0.00 / 0.21          
    volta_sgemm_64x64_nn                              132     - / - / - / - / -                         1.46 / 0.01 / 0.01 / 0.01 / 0.72          
    volta_sgemm_32x32_sliced1x4_tn                    516     - / - / - / - / -                         8.47 / 0.02 / 0.04 / 0.01 / 4.15          
    void gemmSN_NN_kernel<float, 256, 4, 2, 8, 5,...  72      - / - / - / - / -                         0.37 / 0.01 / 0.01 / 0.00 / 0.18          
    void gemmSN_TN_kernel<float, 128, 16, 2, 4, 1...  72      - / - / - / - / -                         0.53 / 0.01 / 0.01 / 0.00 / 0.26          
    volta_sgemm_32x128_tn                             66      - / - / - / - / -                         1.31 / 0.02 / 0.02 / 0.02 / 0.64          
    volta_sgemm_128x32_tn                             48      - / - / - / - / -                         1.01 / 0.02 / 0.02 / 0.02 / 0.50          
    void gemmSN_NN_kernel<float, 256, 4, 2, 8, 4,...  60      - / - / - / - / -                         0.33 / 0.01 / 0.01 / 0.00 / 0.16          
    void gemmSN_TN_kernel<float, 128, 16, 2, 4, 8...  60      - / - / - / - / -                         0.39 / 0.01 / 0.01 / 0.00 / 0.19          
    volta_sgemm_64x32_sliced1x4_tn                    18      - / - / - / - / -                         0.29 / 0.02 / 0.02 / 0.02 / 0.14          
    volta_sgemm_128x128_nt                            72      - / - / - / - / -                         5.55 / 0.08 / 0.08 / 0.07 / 2.72          
  void axpy_kernel_val<float, float>(cublasAxpyPa...  1904    - / - / - / - / -                         10.79 / 0.01 / 0.03 / 0.00 / 5.03         
conv2d_grad grad_node                                 286     92.96 / 0.33 / 1.21 / 0.15 / 5.89         159.31 / 0.56 / 11.54 / 0.07 / 19.67      
  infer_shape                                         286     0.23 / 0.00 / 0.00 / 0.00 / 0.24          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             286     88.88 / 0.31 / 1.20 / 0.13 / 95.60        159.20 / 0.56 / 11.53 / 0.07 / 99.93      
    cask_cudnn::computeWgradSplitKOffsetsKernel(c...  22      - / - / - / - / -                         0.05 / 0.00 / 0.00 / 0.00 / 0.03          
    cask_cudnn::computeWgradBOffsetsKernel(cask_c...  22      - / - / - / - / -                         0.05 / 0.00 / 0.00 / 0.00 / 0.03          
    MEMSET                                            308     - / - / - / - / -                         0.69 / 0.00 / 0.01 / 0.00 / 0.44          
    turing_scudnn_128x64_stridedB_splitK_xregs_la...  11      - / - / - / - / -                         7.32 / 0.67 / 0.73 / 0.64 / 4.60          
    void fft2d_r2c_32x32<float, false, 1u, false>...  11      - / - / - / - / -                         7.57 / 0.69 / 0.71 / 0.67 / 4.75          
    void fft2d_r2c_32x32<float, true, 0u, false>(...  88      - / - / - / - / -                         7.71 / 0.09 / 0.10 / 0.07 / 4.84          
    volta_gcgemm_32x32_nt                             88      - / - / - / - / -                         70.40 / 0.80 / 0.95 / 0.72 / 44.22        
    void fft2d_c2r_32x32<float, false, false, 0u,...  88      - / - / - / - / -                         9.66 / 0.11 / 0.14 / 0.05 / 6.07          
    turing_scudnn_128x128_stridedB_splitK_xregs_l...  11      - / - / - / - / -                         18.59 / 1.69 / 1.81 / 1.62 / 11.68        
    void cudnn::ops::scalePackedTensor_kernel<flo...  132     - / - / - / - / -                         0.58 / 0.00 / 0.01 / 0.00 / 0.36          
    void cudnn::detail::dgrad2d_alg1_1<float, 0, ...  132     - / - / - / - / -                         18.25 / 0.14 / 0.20 / 0.10 / 11.46        
    void wgrad_alg0_engine<float, 128, 6, 7, 3, 3...  12      - / - / - / - / -                         0.83 / 0.07 / 0.07 / 0.07 / 0.52          
    void cask_cudnn::computeOffsetsKernel<true, f...  132     - / - / - / - / -                         0.29 / 0.00 / 0.00 / 0.00 / 0.18          
    cask_cudnn::computeBOffsetsKernel(cask_cudnn:...  132     - / - / - / - / -                         0.28 / 0.00 / 0.00 / 0.00 / 0.18          
    volta_scudnn_128x64_stridedB_small_nn_v1          84      - / - / - / - / -                         2.69 / 0.03 / 0.03 / 0.03 / 1.69          
    void wgrad_alg0_engine<float, 128, 6, 8, 3, 3...  252     - / - / - / - / -                         12.65 / 0.05 / 0.08 / 0.03 / 7.95         
    volta_scudnn_128x64_stridedB_interior_nn_v1       48      - / - / - / - / -                         1.59 / 0.03 / 0.04 / 0.03 / 1.00          
  void axpy_kernel_val<float, float>(cublasAxpyPa...  16      - / - / - / - / -                         0.11 / 0.01 / 0.01 / 0.00 / 0.07          
matmul_v2                                             2552    154.44 / 0.06 / 0.56 / 0.03 / 9.78        127.45 / 0.05 / 0.40 / 0.00 / 15.74       
  infer_shape                                         2552    6.52 / 0.00 / 0.03 / 0.00 / 4.22          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             2552    109.31 / 0.04 / 0.54 / 0.02 / 70.78       127.45 / 0.05 / 0.40 / 0.00 / 100.00      
    volta_sgemm_128x64_nn                             489     - / - / - / - / -                         40.34 / 0.08 / 0.18 / 0.02 / 31.65        
    volta_sgemm_128x32_nn                             588     - / - / - / - / -                         12.81 / 0.02 / 0.05 / 0.02 / 10.05        
    void splitKreduce_kernel<32, 16, int, float, ...  368     - / - / - / - / -                         1.93 / 0.01 / 0.01 / 0.00 / 1.52          
    MEMSET                                            271     - / - / - / - / -                         0.19 / 0.00 / 0.00 / 0.00 / 0.15          
    volta_sgemm_32x32_sliced1x4_nn                    648     - / - / - / - / -                         8.78 / 0.01 / 0.04 / 0.01 / 6.89          
    void gemmSN_NN_kernel<float, 256, 4, 2, 8, 5,...  72      - / - / - / - / -                         0.31 / 0.00 / 0.01 / 0.00 / 0.24          
    void gemmSN_TN_kernel<float, 128, 16, 2, 4, 1...  72      - / - / - / - / -                         0.53 / 0.01 / 0.01 / 0.00 / 0.42          
    volta_sgemm_64x64_nn                              217     - / - / - / - / -                         9.64 / 0.04 / 0.22 / 0.01 / 7.56          
    volta_sgemm_32x32_sliced1x4_tn                    8448    - / - / - / - / -                         45.18 / 0.01 / 0.02 / 0.00 / 35.45        
    volta_sgemm_64x64_tn                              132     - / - / - / - / -                         1.53 / 0.01 / 0.02 / 0.01 / 1.20          
    volta_sgemm_64x32_sliced1x4_nn                    30      - / - / - / - / -                         0.44 / 0.01 / 0.02 / 0.01 / 0.35          
    void gemmSN_NN_kernel<float, 256, 4, 2, 8, 4,...  60      - / - / - / - / -                         0.31 / 0.01 / 0.01 / 0.00 / 0.24          
    void gemmSN_TN_kernel<float, 128, 16, 2, 4, 8...  60      - / - / - / - / -                         0.39 / 0.01 / 0.01 / 0.00 / 0.30          
    volta_sgemm_128x128_nn                            52      - / - / - / - / -                         5.07 / 0.10 / 0.20 / 0.09 / 3.98          
  grad_node_creation                                  2552    14.79 / 0.01 / 0.11 / 0.00 / 9.58         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
elementwise_add_grad grad_node                        3344    92.65 / 0.03 / 0.08 / 0.01 / 5.87         30.48 / 0.01 / 0.14 / 0.00 / 3.76         
  infer_shape                                         3344    2.18 / 0.00 / 0.00 / 0.00 / 2.35          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             3344    50.62 / 0.02 / 0.05 / 0.00 / 54.63        26.34 / 0.01 / 0.14 / 0.00 / 86.40        
    void phi::funcs::ReduceAnyKernel<float, float...  682     - / - / - / - / -                         5.45 / 0.01 / 0.14 / 0.00 / 20.69         
    void phi::funcs::ReduceHigherDimKernel<float,...  3256    - / - / - / - / -                         18.13 / 0.01 / 0.05 / 0.00 / 68.84        
    void phi::SimpleElemwiseAddGradCUDAKernel<flo...  22      - / - / - / - / -                         0.05 / 0.00 / 0.00 / 0.00 / 0.18          
  void axpy_kernel_val<float, float>(cublasAxpyPa...  1716    - / - / - / - / -                         4.15 / 0.00 / 0.01 / 0.00 / 13.60         
conv2d                                                286     78.96 / 0.28 / 3.15 / 0.13 / 5.00         28.44 / 0.10 / 1.65 / 0.03 / 3.51         
  infer_shape                                         286     0.95 / 0.00 / 0.01 / 0.00 / 1.20          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             286     71.36 / 0.25 / 3.11 / 0.11 / 90.37        28.44 / 0.10 / 1.65 / 0.03 / 100.00       
    void cudnn::cnn::kern_precompute_indices<fals...  84      - / - / - / - / -                         0.18 / 0.00 / 0.01 / 0.00 / 0.63          
    void precomputed_convolve_sgemm<float, 1024, ...  84      - / - / - / - / -                         2.42 / 0.03 / 0.03 / 0.03 / 8.52          
    void cask_cudnn::computeOffsetsKernel<false, ...  178     - / - / - / - / -                         0.41 / 0.00 / 0.00 / 0.00 / 1.43          
    volta_scudnn_128x64_relu_interior_nn_v1           143     - / - / - / - / -                         22.24 / 0.16 / 1.65 / 0.03 / 78.20        
    volta_scudnn_128x64_relu_small_nn_v1              11      - / - / - / - / -                         1.73 / 0.16 / 0.17 / 0.15 / 6.10          
    void cudnn::ops::nchwToNhwcKernel<float, floa...  24      - / - / - / - / -                         0.08 / 0.00 / 0.00 / 0.00 / 0.30          
    volta_scudnn_128x32_sliced1x4_ldg4_relu_exp_s...  24      - / - / - / - / -                         0.47 / 0.02 / 0.02 / 0.02 / 1.66          
    void cudnn::ops::nhwcToNchwKernel<float, floa...  24      - / - / - / - / -                         0.09 / 0.00 / 0.00 / 0.00 / 0.30          
    void implicit_convolve_sgemm<float, float, 10...  24      - / - / - / - / -                         0.81 / 0.03 / 0.03 / 0.03 / 2.85          
  grad_node_creation                                  286     2.27 / 0.01 / 0.02 / 0.01 / 2.88          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
warpctc                                               11      29.56 / 2.69 / 4.30 / 2.42 / 1.87         24.97 / 2.27 / 2.37 / 2.18 / 3.08         
  infer_shape                                         11      0.05 / 0.00 / 0.01 / 0.00 / 0.16          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      29.24 / 2.66 / 4.27 / 2.39 / 98.91        24.97 / 2.27 / 2.37 / 2.18 / 100.00       
    void Eigen::internal::EigenMetaKernel<Eigen::...  22      - / - / - / - / -                         0.56 / 0.03 / 0.03 / 0.02 / 2.26          
    void paddle::operators::math::SequencePadding...  11      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 0.12          
    MEMCPY_HtoD                                       55      - / - / - / - / -                         0.04 / 0.00 / 0.00 / 0.00 / 0.16          
    MEMCPY_DtoD                                       11      - / - / - / - / -                         0.58 / 0.05 / 0.06 / 0.05 / 2.33          
    void reduce_rows<128, ctc_helper::identity<fl...  11      - / - / - / - / -                         0.34 / 0.03 / 0.03 / 0.03 / 1.37          
    void prepare_stable_SM_kernel<float, 1, ctc_h...  11      - / - / - / - / -                         0.51 / 0.05 / 0.05 / 0.04 / 2.04          
    void reduce_rows<128, ctc_helper::exponential...  11      - / - / - / - / -                         0.35 / 0.03 / 0.03 / 0.03 / 1.40          
    void compute_probs_kernel<float, 1, ctc_helpe...  11      - / - / - / - / -                         0.52 / 0.05 / 0.05 / 0.05 / 2.09          
    void truncate_probs_kernel<float, 1>(float*, ...  11      - / - / - / - / -                         0.38 / 0.03 / 0.04 / 0.03 / 1.51          
    void compute_alpha_kernel<float, 32, 1>(float...  11      - / - / - / - / -                         0.66 / 0.06 / 0.07 / 0.06 / 2.64          
    void compute_betas_and_grad_kernel<float, 32,...  11      - / - / - / - / -                         20.36 / 1.85 / 1.94 / 1.76 / 81.53        
    MEMCPY_DtoH                                       11      - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 0.05          
  grad_node_creation                                  11      0.13 / 0.01 / 0.02 / 0.01 / 0.42          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
elementwise_add                                       3366    98.17 / 0.03 / 0.17 / 0.02 / 6.22         23.78 / 0.01 / 0.26 / 0.00 / 2.94         
  infer_shape                                         3366    5.05 / 0.00 / 0.02 / 0.00 / 5.15          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             3366    41.92 / 0.01 / 0.12 / 0.01 / 42.70        23.78 / 0.01 / 0.26 / 0.00 / 100.00       
    void phi::funcs::VectorizedBroadcastKernel<fl...  3366    - / - / - / - / -                         23.78 / 0.01 / 0.26 / 0.00 / 100.00       
  grad_node_creation                                  3366    20.19 / 0.01 / 0.15 / 0.00 / 20.57        0.00 / 0.00 / 0.00 / 0.00 / 0.00          
layer_norm_grad grad_node                             1023    48.30 / 0.05 / 0.10 / 0.03 / 3.06         21.63 / 0.02 / 0.04 / 0.01 / 2.67         
  infer_shape                                         1023    1.42 / 0.00 / 0.02 / 0.00 / 2.94          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1023    18.30 / 0.02 / 0.05 / 0.01 / 37.89        15.03 / 0.01 / 0.03 / 0.01 / 69.47        
    void paddle::operators::LayerNormBackwardPart...  1023    - / - / - / - / -                         5.55 / 0.01 / 0.02 / 0.00 / 36.94         
    void paddle::operators::LayerNormBackwardSumG...  1023    - / - / - / - / -                         2.68 / 0.00 / 0.01 / 0.00 / 17.84         
    void paddle::operators::LayerNormBackwardComp...  1023    - / - / - / - / -                         6.79 / 0.01 / 0.02 / 0.00 / 45.22         
  void axpy_kernel_val<float, float>(cublasAxpyPa...  2214    - / - / - / - / -                         6.60 / 0.00 / 0.01 / 0.00 / 30.53         
adam                                                  1860    34.68 / 0.02 / 0.08 / 0.02 / 2.20         16.50 / 0.01 / 0.07 / 0.00 / 2.04         
  infer_shape                                         1860    2.42 / 0.00 / 0.02 / 0.00 / 6.99          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1860    19.81 / 0.01 / 0.05 / 0.01 / 57.13        16.50 / 0.01 / 0.07 / 0.00 / 100.00       
    void paddle::operators::AdamKernelMEM<float, ...  1860    - / - / - / - / -                         12.62 / 0.01 / 0.07 / 0.00 / 76.50        
    void paddle::operators::UpdateBetaPow<float>(...  1860    - / - / - / - / -                         3.88 / 0.00 / 0.01 / 0.00 / 23.50         
  grad_node_creation                                  1860    0.11 / 0.00 / 0.00 / 0.00 / 0.33          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
dropout                                               1386    44.06 / 0.03 / 0.08 / 0.02 / 2.79         11.99 / 0.01 / 0.04 / 0.00 / 1.48         
  infer_shape                                         1386    5.17 / 0.00 / 0.03 / 0.00 / 11.74         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1386    19.07 / 0.01 / 0.04 / 0.01 / 43.29        11.99 / 0.01 / 0.04 / 0.00 / 100.00       
    void paddle::operators::VectorizedRandomGener...  1386    - / - / - / - / -                         11.99 / 0.01 / 0.04 / 0.00 / 100.00       
  grad_node_creation                                  1386    7.02 / 0.01 / 0.04 / 0.00 / 15.92         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
dropout_grad grad_node                                1353    25.24 / 0.02 / 0.06 / 0.01 / 1.60         11.28 / 0.01 / 0.04 / 0.00 / 1.39         
  infer_shape                                         1353    0.90 / 0.00 / 0.02 / 0.00 / 3.56          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1353    13.90 / 0.01 / 0.04 / 0.01 / 55.07        11.28 / 0.01 / 0.04 / 0.00 / 100.00       
    void phi::funcs::VectorizedElementwiseKernel<...  1353    - / - / - / - / -                         11.28 / 0.01 / 0.04 / 0.00 / 100.00       
swish_grad grad_node                                  396     5.93 / 0.01 / 0.03 / 0.01 / 0.38          10.98 / 0.03 / 0.05 / 0.00 / 1.36         
  infer_shape                                         396     0.17 / 0.00 / 0.00 / 0.00 / 2.93          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             396     2.64 / 0.01 / 0.02 / 0.01 / 44.56         10.98 / 0.03 / 0.05 / 0.00 / 100.00       
    void phi::funcs::VectorizedElementwiseKernel<...  396     - / - / - / - / -                         10.98 / 0.03 / 0.05 / 0.00 / 100.00       
set_value                                             731     34.20 / 0.05 / 0.11 / 0.03 / 2.17         10.24 / 0.01 / 0.03 / 0.01 / 1.26         
  infer_shape                                         731     2.23 / 0.00 / 0.02 / 0.00 / 6.51          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             731     24.60 / 0.03 / 0.09 / 0.02 / 71.95        10.24 / 0.01 / 0.03 / 0.01 / 100.00       
    void Eigen::internal::EigenMetaKernel<Eigen::...  352     - / - / - / - / -                         0.70 / 0.00 / 0.00 / 0.00 / 6.83          
    void Eigen::internal::EigenMetaKernel<Eigen::...  352     - / - / - / - / -                         0.82 / 0.00 / 0.01 / 0.00 / 7.97          
    void phi::funcs::VectorizedBroadcastKernel<in...  176     - / - / - / - / -                         0.40 / 0.00 / 0.00 / 0.00 / 3.93          
    void Eigen::internal::EigenMetaKernel<Eigen::...  176     - / - / - / - / -                         0.39 / 0.00 / 0.00 / 0.00 / 3.84          
    void Eigen::internal::EigenMetaKernel<Eigen::...  1110    - / - / - / - / -                         2.35 / 0.00 / 0.01 / 0.00 / 22.92         
    void Eigen::internal::EigenMetaKernel<Eigen::...  1110    - / - / - / - / -                         2.53 / 0.00 / 0.01 / 0.00 / 24.68         
    void phi::funcs::VectorizedBroadcastKernel<bo...  555     - / - / - / - / -                         1.30 / 0.00 / 0.00 / 0.00 / 12.72         
    void Eigen::internal::EigenMetaKernel<Eigen::...  555     - / - / - / - / -                         1.34 / 0.00 / 0.01 / 0.00 / 13.12         
  grad_node_creation                                  731     0.07 / 0.00 / 0.00 / 0.00 / 0.21          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
depthwise_conv2d_grad grad_node                       132     5.29 / 0.04 / 0.05 / 0.03 / 0.34          9.04 / 0.07 / 0.08 / 0.06 / 1.12          
  infer_shape                                         132     0.11 / 0.00 / 0.00 / 0.00 / 2.15          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     3.61 / 0.03 / 0.04 / 0.02 / 68.25         9.04 / 0.07 / 0.08 / 0.06 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  264     - / - / - / - / -                         0.69 / 0.00 / 0.00 / 0.00 / 7.58          
    void paddle::operators::math::KernelDepthwise...  132     - / - / - / - / -                         1.81 / 0.01 / 0.02 / 0.01 / 20.00         
    void paddle::operators::math::KernelDepthwise...  132     - / - / - / - / -                         6.54 / 0.05 / 0.06 / 0.04 / 72.42         
transpose2_grad grad_node                             1738    25.85 / 0.01 / 0.04 / 0.01 / 1.64         8.06 / 0.00 / 0.07 / 0.00 / 0.99          
  infer_shape                                         1738    1.21 / 0.00 / 0.00 / 0.00 / 4.69          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1738    13.80 / 0.01 / 0.04 / 0.01 / 53.40        8.06 / 0.00 / 0.07 / 0.00 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  1199    - / - / - / - / -                         5.34 / 0.00 / 0.07 / 0.00 / 66.31         
    void paddle::operators::TilingSwapDim1And2<fl...  528     - / - / - / - / -                         2.13 / 0.00 / 0.01 / 0.00 / 26.40         
    void Eigen::internal::EigenMetaKernel<Eigen::...  11      - / - / - / - / -                         0.59 / 0.05 / 0.06 / 0.05 / 7.29          
layer_norm                                            1023    37.99 / 0.04 / 0.66 / 0.03 / 2.41         7.74 / 0.01 / 0.02 / 0.01 / 0.96          
  infer_shape                                         1023    1.98 / 0.00 / 0.02 / 0.00 / 5.22          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1023    14.32 / 0.01 / 0.64 / 0.01 / 37.70        7.74 / 0.01 / 0.02 / 0.01 / 100.00        
    void paddle::operators::LayerNormForward<floa...  1023    - / - / - / - / -                         7.74 / 0.01 / 0.02 / 0.01 / 100.00        
  grad_node_creation                                  1023    8.75 / 0.01 / 0.08 / 0.01 / 23.02         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
scale                                                 2531    49.17 / 0.02 / 0.17 / 0.01 / 3.12         7.61 / 0.00 / 0.02 / 0.00 / 0.94          
  infer_shape                                         2531    5.61 / 0.00 / 0.03 / 0.00 / 11.40         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             2531    22.89 / 0.01 / 0.13 / 0.01 / 46.54        7.60 / 0.00 / 0.02 / 0.00 / 99.89         
    void phi::funcs::VectorizedElementwiseKernel<...  2520    - / - / - / - / -                         7.57 / 0.00 / 0.02 / 0.00 / 99.70         
    void phi::funcs::VectorizedElementwiseKernel<...  11      - / - / - / - / -                         0.02 / 0.00 / 0.00 / 0.00 / 0.30          
  grad_node_creation                                  2531    3.76 / 0.00 / 0.08 / 0.00 / 7.65          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  GpuMemcpySync:CUDAPinned->GPU                       11      0.16 / 0.01 / 0.02 / 0.01 / 0.32          0.01 / 0.00 / 0.00 / 0.00 / 0.11          
    MEMCPY_HtoD                                       11      - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
swish                                                 396     9.68 / 0.02 / 0.05 / 0.02 / 0.61          7.57 / 0.02 / 0.04 / 0.00 / 0.93          
  infer_shape                                         396     0.16 / 0.00 / 0.00 / 0.00 / 1.63          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             396     4.39 / 0.01 / 0.03 / 0.01 / 45.34         7.57 / 0.02 / 0.04 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  396     - / - / - / - / -                         7.57 / 0.02 / 0.04 / 0.00 / 100.00        
  grad_node_creation                                  396     1.85 / 0.00 / 0.01 / 0.00 / 19.11         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
transpose2                                            1738    42.41 / 0.02 / 0.16 / 0.02 / 2.69         7.48 / 0.00 / 0.07 / 0.00 / 0.92          
  infer_shape                                         1738    2.36 / 0.00 / 0.01 / 0.00 / 5.56          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1738    19.58 / 0.01 / 0.07 / 0.01 / 46.17        7.48 / 0.00 / 0.07 / 0.00 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  11      - / - / - / - / -                         0.57 / 0.05 / 0.06 / 0.05 / 7.59          
    void Eigen::internal::EigenMetaKernel<Eigen::...  1199    - / - / - / - / -                         4.73 / 0.00 / 0.07 / 0.00 / 63.27         
    void paddle::operators::TilingSwapDim1And2<fl...  528     - / - / - / - / -                         2.18 / 0.00 / 0.01 / 0.00 / 29.14         
  grad_node_creation                                  1738    7.20 / 0.00 / 0.14 / 0.00 / 16.99         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
elementwise_mul                                       2058    49.33 / 0.02 / 0.58 / 0.02 / 3.13         6.96 / 0.00 / 0.02 / 0.00 / 0.86          
  infer_shape                                         2058    2.96 / 0.00 / 0.00 / 0.00 / 5.99          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             2058    26.18 / 0.01 / 0.56 / 0.01 / 53.06        6.96 / 0.00 / 0.02 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<fl...  2058    - / - / - / - / -                         6.96 / 0.00 / 0.02 / 0.00 / 100.00        
  grad_node_creation                                  2058    1.27 / 0.00 / 0.02 / 0.00 / 2.57          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
squared_l2_norm                                       1860    33.51 / 0.02 / 2.03 / 0.01 / 2.12         6.72 / 0.00 / 0.01 / 0.00 / 0.83          
  infer_shape                                         1860    0.60 / 0.00 / 0.00 / 0.00 / 1.79          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1860    25.49 / 0.01 / 2.03 / 0.01 / 76.08        6.72 / 0.00 / 0.01 / 0.00 / 100.00        
    void cub::DeviceReduceSingleTileKernel<cub::D...  1263    - / - / - / - / -                         3.08 / 0.00 / 0.01 / 0.00 / 45.88         
    void cub::DeviceReduceKernel<cub::DeviceReduc...  597     - / - / - / - / -                         2.39 / 0.00 / 0.01 / 0.00 / 35.54         
    void cub::DeviceReduceSingleTileKernel<cub::D...  597     - / - / - / - / -                         1.25 / 0.00 / 0.00 / 0.00 / 18.58         
  grad_node_creation                                  1860    0.11 / 0.00 / 0.00 / 0.00 / 0.33          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
sum                                                   1866    28.00 / 0.02 / 0.85 / 0.01 / 1.77         6.38 / 0.00 / 0.09 / 0.00 / 0.79          
  infer_shape                                         1866    1.97 / 0.00 / 0.16 / 0.00 / 7.05          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1866    14.44 / 0.01 / 0.18 / 0.01 / 51.57        6.38 / 0.00 / 0.09 / 0.00 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  1860    - / - / - / - / -                         6.10 / 0.00 / 0.03 / 0.00 / 95.52         
    void Eigen::internal::EigenMetaKernel<Eigen::...  6       - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 0.20          
    void phi::SumArrayCUDAKernel<float>(float**, ...  6       - / - / - / - / -                         0.27 / 0.04 / 0.09 / 0.00 / 4.20          
  grad_node_creation                                  1866    0.10 / 0.00 / 0.00 / 0.00 / 0.34          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
where_grad grad_node                                  814     15.86 / 0.02 / 0.05 / 0.01 / 1.00         5.24 / 0.01 / 0.02 / 0.00 / 0.65          
  infer_shape                                         814     0.65 / 0.00 / 0.00 / 0.00 / 4.13          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             814     5.94 / 0.01 / 0.03 / 0.01 / 37.42         5.24 / 0.01 / 0.02 / 0.00 / 100.00        
    void phi::WhereGradCUDAKernel<float>(int, flo...  814     - / - / - / - / -                         5.24 / 0.01 / 0.02 / 0.00 / 100.00        
relu_grad grad_node                                   88      1.28 / 0.01 / 0.02 / 0.01 / 0.08          5.16 / 0.06 / 0.38 / 0.00 / 0.64          
  infer_shape                                         88      0.04 / 0.00 / 0.00 / 0.00 / 2.92          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             88      0.58 / 0.01 / 0.01 / 0.00 / 45.13         5.16 / 0.06 / 0.38 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  88      - / - / - / - / -                         5.16 / 0.06 / 0.38 / 0.00 / 100.00        
expand_v2                                             957     22.07 / 0.02 / 0.05 / 0.02 / 1.40         4.61 / 0.00 / 0.01 / 0.00 / 0.57          
  infer_shape                                         957     2.69 / 0.00 / 0.02 / 0.00 / 12.20         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             957     11.47 / 0.01 / 0.04 / 0.01 / 51.99        4.61 / 0.00 / 0.01 / 0.00 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  110     - / - / - / - / -                         0.32 / 0.00 / 0.01 / 0.00 / 6.96          
    void Eigen::internal::EigenMetaKernel<Eigen::...  22      - / - / - / - / -                         0.05 / 0.00 / 0.00 / 0.00 / 1.04          
    void Eigen::internal::EigenMetaKernel<Eigen::...  528     - / - / - / - / -                         2.66 / 0.01 / 0.01 / 0.00 / 57.55         
    void Eigen::internal::EigenMetaKernel<Eigen::...  33      - / - / - / - / -                         0.09 / 0.00 / 0.00 / 0.00 / 1.85          
    void Eigen::internal::EigenMetaKernel<Eigen::...  264     - / - / - / - / -                         1.50 / 0.01 / 0.01 / 0.01 / 32.60         
  grad_node_creation                                  957     0.10 / 0.00 / 0.00 / 0.00 / 0.46          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
relu                                                  88      2.29 / 0.03 / 0.06 / 0.02 / 0.15          3.53 / 0.04 / 0.26 / 0.00 / 0.44          
  infer_shape                                         88      0.04 / 0.00 / 0.00 / 0.00 / 1.66          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             88      0.99 / 0.01 / 0.02 / 0.01 / 43.19         3.53 / 0.04 / 0.26 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  88      - / - / - / - / -                         3.53 / 0.04 / 0.26 / 0.00 / 100.00        
  grad_node_creation                                  88      0.51 / 0.01 / 0.01 / 0.00 / 22.15         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
where                                                 924     24.03 / 0.03 / 0.07 / 0.02 / 1.52         2.96 / 0.00 / 0.02 / 0.00 / 0.37          
  infer_shape                                         924     2.09 / 0.00 / 0.00 / 0.00 / 8.71          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             924     8.94 / 0.01 / 0.03 / 0.01 / 37.21         2.96 / 0.00 / 0.02 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  814     - / - / - / - / -                         2.72 / 0.00 / 0.02 / 0.00 / 92.11         
    void phi::funcs::VectorizedElementwiseKernel<...  110     - / - / - / - / -                         0.23 / 0.00 / 0.00 / 0.00 / 7.89          
  grad_node_creation                                  924     5.30 / 0.01 / 0.03 / 0.00 / 22.07         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
concat                                                308     11.24 / 0.04 / 0.12 / 0.03 / 0.71         2.46 / 0.01 / 0.02 / 0.00 / 0.30          
  infer_shape                                         308     1.31 / 0.00 / 0.01 / 0.00 / 11.66         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             308     5.11 / 0.02 / 0.10 / 0.01 / 45.49         2.45 / 0.01 / 0.02 / 0.00 / 99.65         
    void phi::funcs::ConcatKernel_<float>(float c...  264     - / - / - / - / -                         2.27 / 0.01 / 0.02 / 0.01 / 92.71         
    void phi::funcs::ConcatKernel_<int>(int const...  44      - / - / - / - / -                         0.12 / 0.00 / 0.00 / 0.00 / 4.71          
  grad_node_creation                                  308     1.68 / 0.01 / 0.02 / 0.00 / 14.98         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  GpuMemcpySync:CUDAPinned->GPU                       11      0.26 / 0.02 / 0.03 / 0.02 / 2.34          0.01 / 0.00 / 0.00 / 0.00 / 0.35          
    MEMCPY_HtoD                                       11      - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
fill_any_like                                         946     16.88 / 0.02 / 0.05 / 0.01 / 1.07         2.17 / 0.00 / 0.01 / 0.00 / 0.27          
  infer_shape                                         946     0.50 / 0.00 / 0.02 / 0.00 / 2.97          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             946     9.35 / 0.01 / 0.04 / 0.01 / 55.38         2.17 / 0.00 / 0.01 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  836     - / - / - / - / -                         1.97 / 0.00 / 0.01 / 0.00 / 90.70         
    void phi::funcs::VectorizedElementwiseKernel<...  110     - / - / - / - / -                         0.20 / 0.00 / 0.00 / 0.00 / 9.30          
  grad_node_creation                                  946     0.33 / 0.00 / 0.00 / 0.00 / 1.95          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
slice                                                 693     20.41 / 0.03 / 0.10 / 0.02 / 1.29         1.76 / 0.00 / 0.00 / 0.00 / 0.22          
  infer_shape                                         693     1.41 / 0.00 / 0.02 / 0.00 / 6.93          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             693     11.93 / 0.02 / 0.07 / 0.01 / 58.43        1.76 / 0.00 / 0.00 / 0.00 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  165     - / - / - / - / -                         0.46 / 0.00 / 0.00 / 0.00 / 26.19         
    void Eigen::internal::EigenMetaKernel<Eigen::...  176     - / - / - / - / -                         0.38 / 0.00 / 0.00 / 0.00 / 21.45         
    void Eigen::internal::EigenMetaKernel<Eigen::...  176     - / - / - / - / -                         0.38 / 0.00 / 0.00 / 0.00 / 21.62         
    void Eigen::internal::EigenMetaKernel<Eigen::...  176     - / - / - / - / -                         0.38 / 0.00 / 0.00 / 0.00 / 21.76         
  grad_node_creation                                  693     0.94 / 0.00 / 0.02 / 0.00 / 4.59          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
scale grad_node                                       616     10.13 / 0.02 / 0.08 / 0.01 / 0.64         1.63 / 0.00 / 0.00 / 0.00 / 0.20          
  infer_shape                                         616     1.46 / 0.00 / 0.01 / 0.00 / 14.42         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             616     4.69 / 0.01 / 0.04 / 0.00 / 46.28         1.63 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  616     - / - / - / - / -                         1.63 / 0.00 / 0.00 / 0.00 / 100.00        
depthwise_conv2d                                      132     5.53 / 0.04 / 0.07 / 0.04 / 0.35          1.48 / 0.01 / 0.01 / 0.01 / 0.18          
  infer_shape                                         132     0.49 / 0.00 / 0.02 / 0.00 / 8.91          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     2.44 / 0.02 / 0.05 / 0.02 / 44.00         1.48 / 0.01 / 0.01 / 0.01 / 100.00        
    void paddle::operators::math::KernelDepthwise...  132     - / - / - / - / -                         1.48 / 0.01 / 0.01 / 0.01 / 100.00        
  grad_node_creation                                  132     0.83 / 0.01 / 0.01 / 0.01 / 15.06         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
warpctc_grad grad_node                                11      0.35 / 0.03 / 0.04 / 0.03 / 0.02          1.39 / 0.13 / 0.13 / 0.12 / 0.17          
  infer_shape                                         11      0.01 / 0.00 / 0.00 / 0.00 / 3.12          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      0.21 / 0.02 / 0.02 / 0.02 / 59.36         1.39 / 0.13 / 0.13 / 0.12 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  11      - / - / - / - / -                         0.59 / 0.05 / 0.06 / 0.05 / 42.65         
    void Eigen::internal::EigenMetaKernel<Eigen::...  11      - / - / - / - / -                         0.79 / 0.07 / 0.08 / 0.07 / 57.35         
concat grad_node                                      132     3.17 / 0.02 / 0.04 / 0.02 / 0.20          1.35 / 0.01 / 0.01 / 0.01 / 0.17          
  infer_shape                                         132     0.59 / 0.00 / 0.01 / 0.00 / 18.73         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     1.54 / 0.01 / 0.02 / 0.01 / 48.72         1.35 / 0.01 / 0.01 / 0.01 / 100.00        
    void phi::funcs::ConcatKernel_<float>(float c...  132     - / - / - / - / -                         1.35 / 0.01 / 0.01 / 0.01 / 100.00        
unsqueeze2_grad grad_node                             1188    14.02 / 0.01 / 0.05 / 0.01 / 0.89         1.32 / 0.00 / 0.01 / 0.00 / 0.16          
  infer_shape                                         1188    0.68 / 0.00 / 0.00 / 0.00 / 4.85          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1188    1.41 / 0.00 / 0.02 / 0.00 / 10.07         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  void axpy_kernel_val<float, float>(cublasAxpyPa...  480     - / - / - / - / -                         1.32 / 0.00 / 0.01 / 0.00 / 100.00        
elementwise_mul_grad grad_node                        165     3.75 / 0.02 / 0.05 / 0.01 / 0.24          1.28 / 0.01 / 0.01 / 0.00 / 0.16          
  infer_shape                                         165     0.11 / 0.00 / 0.00 / 0.00 / 3.05          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             165     2.15 / 0.01 / 0.02 / 0.01 / 57.27         1.28 / 0.01 / 0.01 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<fl...  33      - / - / - / - / -                         0.11 / 0.00 / 0.01 / 0.00 / 8.49          
    void phi::funcs::VectorizedBroadcastKernel<fl...  132     - / - / - / - / -                         1.17 / 0.01 / 0.01 / 0.01 / 91.51         
pad3d_grad grad_node                                  132     2.99 / 0.02 / 0.04 / 0.02 / 0.19          1.27 / 0.01 / 0.02 / 0.01 / 0.16          
  infer_shape                                         132     0.09 / 0.00 / 0.00 / 0.00 / 3.08          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     2.05 / 0.02 / 0.03 / 0.01 / 68.73         1.27 / 0.01 / 0.02 / 0.01 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  132     - / - / - / - / -                         0.38 / 0.00 / 0.01 / 0.00 / 29.98         
    void phi::Pad3DGradConstNCDHW<float>(int, flo...  132     - / - / - / - / -                         0.89 / 0.01 / 0.02 / 0.01 / 70.02         
split                                                 132     4.82 / 0.04 / 0.08 / 0.03 / 0.31          1.14 / 0.01 / 0.01 / 0.01 / 0.14          
  infer_shape                                         132     0.35 / 0.00 / 0.00 / 0.00 / 7.18          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     2.18 / 0.02 / 0.05 / 0.01 / 45.30         1.14 / 0.01 / 0.01 / 0.01 / 100.00        
    void phi::funcs::SplitKernel_<float>(float co...  132     - / - / - / - / -                         1.14 / 0.01 / 0.01 / 0.01 / 100.00        
  grad_node_creation                                  132     0.94 / 0.01 / 0.01 / 0.01 / 19.58         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
equal                                                 341     9.16 / 0.03 / 0.17 / 0.02 / 0.58          1.04 / 0.00 / 0.01 / 0.00 / 0.13          
  infer_shape                                         341     1.07 / 0.00 / 0.02 / 0.00 / 11.65         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             341     4.81 / 0.01 / 0.16 / 0.01 / 52.50         1.04 / 0.00 / 0.01 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<lo...  11      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 2.57          
    void phi::funcs::VectorizedBroadcastKernel<in...  66      - / - / - / - / -                         0.18 / 0.00 / 0.00 / 0.00 / 16.85         
    void phi::funcs::VectorizedBroadcastKernel<bo...  264     - / - / - / - / -                         0.84 / 0.00 / 0.01 / 0.00 / 80.58         
  grad_node_creation                                  341     0.05 / 0.00 / 0.00 / 0.00 / 0.56          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
elementwise_sub                                       11      1.61 / 0.15 / 0.18 / 0.13 / 0.10          1.02 / 0.09 / 0.11 / 0.08 / 0.13          
  GpuMemcpySync:CUDAPinned->GPU                       11      1.18 / 0.11 / 0.13 / 0.09 / 73.15         0.97 / 0.09 / 0.11 / 0.08 / 95.19         
    MEMCPY_HtoD                                       11      - / - / - / - / -                         0.97 / 0.09 / 0.11 / 0.08 / 100.00        
  infer_shape                                         11      0.02 / 0.00 / 0.00 / 0.00 / 1.30          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      0.19 / 0.02 / 0.02 / 0.02 / 11.72         0.05 / 0.00 / 0.01 / 0.00 / 4.81          
    void phi::funcs::VectorizedBroadcastKernel<fl...  11      - / - / - / - / -                         0.05 / 0.00 / 0.01 / 0.00 / 100.00        
  grad_node_creation                                  11      0.00 / 0.00 / 0.00 / 0.00 / 0.08          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
pad3d                                                 132     3.78 / 0.03 / 0.08 / 0.02 / 0.24          1.01 / 0.01 / 0.02 / 0.01 / 0.13          
  infer_shape                                         132     0.37 / 0.00 / 0.02 / 0.00 / 9.80          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     1.66 / 0.01 / 0.03 / 0.01 / 43.86         1.01 / 0.01 / 0.02 / 0.01 / 100.00        
    void phi::Pad3DConstNCDHW<float>(int, float c...  132     - / - / - / - / -                         1.01 / 0.01 / 0.02 / 0.01 / 100.00        
  grad_node_creation                                  132     0.82 / 0.01 / 0.02 / 0.00 / 21.77         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
softmax_grad grad_node                                264     5.11 / 0.02 / 0.05 / 0.01 / 0.32          0.94 / 0.00 / 0.01 / 0.00 / 0.12          
  infer_shape                                         264     0.56 / 0.00 / 0.02 / 0.00 / 11.05         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             264     2.25 / 0.01 / 0.03 / 0.01 / 43.99         0.94 / 0.00 / 0.01 / 0.00 / 100.00        
    void phi::WarpSoftmaxBackward<float, int2, fl...  72      - / - / - / - / -                         0.29 / 0.00 / 0.01 / 0.00 / 30.38         
    void phi::WarpSoftmaxBackward<float, int2, fl...  24      - / - / - / - / -                         0.07 / 0.00 / 0.01 / 0.00 / 6.99          
    void phi::WarpSoftmaxBackward<float, float, f...  90      - / - / - / - / -                         0.35 / 0.00 / 0.00 / 0.00 / 36.85         
    void phi::WarpSoftmaxBackward<float, float, f...  12      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 2.98          
    void phi::WarpSoftmaxBackward<float, int4, fl...  36      - / - / - / - / -                         0.14 / 0.00 / 0.01 / 0.00 / 14.78         
    void phi::WarpSoftmaxBackward<float, int4, fl...  18      - / - / - / - / -                         0.04 / 0.00 / 0.00 / 0.00 / 4.72          
    void phi::WarpSoftmaxBackward<float, float, f...  12      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 3.30          
flip                                                  176     6.37 / 0.04 / 0.07 / 0.03 / 0.40          0.86 / 0.00 / 0.01 / 0.00 / 0.11          
  infer_shape                                         176     0.47 / 0.00 / 0.00 / 0.00 / 7.40          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             176     4.60 / 0.03 / 0.06 / 0.02 / 72.15         0.86 / 0.00 / 0.01 / 0.00 / 100.00        
    void phi::flip_cuda_kernel<int>(int, int cons...  176     - / - / - / - / -                         0.48 / 0.00 / 0.00 / 0.00 / 55.64         
  grad_node_creation                                  176     0.02 / 0.00 / 0.00 / 0.00 / 0.25          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
fill_constant                                         677     13.18 / 0.02 / 0.06 / 0.01 / 0.84         0.84 / 0.00 / 0.02 / 0.00 / 0.10          
  infer_shape                                         677     0.57 / 0.00 / 0.01 / 0.00 / 4.29          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             677     6.54 / 0.01 / 0.04 / 0.00 / 49.64         0.84 / 0.00 / 0.02 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  132     - / - / - / - / -                         0.24 / 0.00 / 0.00 / 0.00 / 29.02         
    void phi::funcs::VectorizedElementwiseKernel<...  297     - / - / - / - / -                         0.56 / 0.00 / 0.02 / 0.00 / 67.12         
    void phi::funcs::VectorizedElementwiseKernel<...  17      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 3.86          
  grad_node_creation                                  677     0.06 / 0.00 / 0.00 / 0.00 / 0.49          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
softmax                                               264     7.39 / 0.03 / 0.06 / 0.02 / 0.47          0.83 / 0.00 / 0.00 / 0.00 / 0.10          
  infer_shape                                         264     0.60 / 0.00 / 0.00 / 0.00 / 8.17          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             264     2.83 / 0.01 / 0.04 / 0.01 / 38.38         0.83 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::WarpSoftmaxForward<float, int2, flo...  72      - / - / - / - / -                         0.25 / 0.00 / 0.00 / 0.00 / 30.01         
    void phi::WarpSoftmaxForward<float, int2, flo...  24      - / - / - / - / -                         0.05 / 0.00 / 0.00 / 0.00 / 6.51          
    void phi::WarpSoftmaxForward<float, float, fl...  90      - / - / - / - / -                         0.30 / 0.00 / 0.00 / 0.00 / 36.31         
    void phi::WarpSoftmaxForward<float, float, fl...  12      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 3.20          
    void phi::WarpSoftmaxForward<float, int4, flo...  36      - / - / - / - / -                         0.13 / 0.00 / 0.00 / 0.00 / 15.06         
    void phi::WarpSoftmaxForward<float, int4, flo...  18      - / - / - / - / -                         0.04 / 0.00 / 0.00 / 0.00 / 5.12          
    void phi::WarpSoftmaxForward<float, float, fl...  12      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 3.78          
  grad_node_creation                                  264     1.28 / 0.00 / 0.02 / 0.00 / 17.28         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
lookup_table_v2_grad grad_node                        22      0.64 / 0.03 / 0.04 / 0.02 / 0.04          0.61 / 0.03 / 0.03 / 0.01 / 0.08          
  infer_shape                                         22      0.01 / 0.00 / 0.00 / 0.00 / 1.71          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.29 / 0.01 / 0.02 / 0.01 / 45.06         0.29 / 0.01 / 0.01 / 0.01 / 46.71         
    MEMSET                                            22      - / - / - / - / -                         0.18 / 0.01 / 0.01 / 0.01 / 62.88         
    void phi::EmbeddingGrad<float, int>(float*, f...  22      - / - / - / - / -                         0.11 / 0.00 / 0.01 / 0.00 / 37.12         
  void axpy_kernel_val<float, float>(cublasAxpyPa...  16      - / - / - / - / -                         0.33 / 0.02 / 0.02 / 0.02 / 53.29         
reduce_sum                                            110     5.13 / 0.05 / 0.09 / 0.03 / 0.32          0.55 / 0.00 / 0.01 / 0.00 / 0.07          
  infer_shape                                         110     0.43 / 0.00 / 0.01 / 0.00 / 8.45          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             110     3.48 / 0.03 / 0.07 / 0.02 / 67.83         0.55 / 0.00 / 0.01 / 0.00 / 100.00        
    void cub::DeviceReduceSingleTileKernel<cub::D...  11      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 5.08          
    void phi::funcs::VectorizedElementwiseKernel<...  44      - / - / - / - / -                         0.09 / 0.00 / 0.00 / 0.00 / 16.71         
    void cub::DeviceReduceSingleTileKernel<cub::D...  44      - / - / - / - / -                         0.10 / 0.00 / 0.00 / 0.00 / 18.23         
    void cub::DeviceReduceKernel<cub::DeviceReduc...  22      - / - / - / - / -                         0.09 / 0.00 / 0.01 / 0.00 / 16.98         
    void cub::DeviceReduceSingleTileKernel<cub::D...  22      - / - / - / - / -                         0.06 / 0.00 / 0.00 / 0.00 / 10.53         
    void phi::funcs::VectorizedElementwiseKernel<...  33      - / - / - / - / -                         0.08 / 0.00 / 0.00 / 0.00 / 14.30         
    void phi::funcs::ReduceHigherDimKernel<long, ...  22      - / - / - / - / -                         0.07 / 0.00 / 0.00 / 0.00 / 13.10         
    void phi::funcs::ReduceAnyKernel<long, long, ...  11      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 5.08          
  grad_node_creation                                  110     0.26 / 0.00 / 0.01 / 0.00 / 5.15          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
sigmoid_grad grad_node                                132     2.07 / 0.02 / 0.04 / 0.01 / 0.13          0.51 / 0.00 / 0.00 / 0.00 / 0.06          
  infer_shape                                         132     0.06 / 0.00 / 0.00 / 0.00 / 2.79          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     0.98 / 0.01 / 0.01 / 0.01 / 47.22         0.51 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  132     - / - / - / - / -                         0.51 / 0.00 / 0.00 / 0.00 / 100.00        
cast                                                  242     4.04 / 0.02 / 0.04 / 0.01 / 0.26          0.50 / 0.00 / 0.00 / 0.00 / 0.06          
  infer_shape                                         242     0.14 / 0.00 / 0.02 / 0.00 / 3.44          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             242     2.21 / 0.01 / 0.02 / 0.01 / 54.81         0.50 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  187     - / - / - / - / -                         0.38 / 0.00 / 0.00 / 0.00 / 75.21         
    void phi::funcs::VectorizedElementwiseKernel<...  44      - / - / - / - / -                         0.10 / 0.00 / 0.00 / 0.00 / 19.96         
    void phi::funcs::VectorizedElementwiseKernel<...  11      - / - / - / - / -                         0.02 / 0.00 / 0.00 / 0.00 / 4.83          
  grad_node_creation                                  242     0.07 / 0.00 / 0.01 / 0.00 / 1.77          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
sigmoid                                               132     3.32 / 0.03 / 0.06 / 0.02 / 0.21          0.49 / 0.00 / 0.02 / 0.00 / 0.06          
  infer_shape                                         132     0.06 / 0.00 / 0.00 / 0.00 / 1.68          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     1.49 / 0.01 / 0.04 / 0.01 / 44.78         0.49 / 0.00 / 0.02 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  132     - / - / - / - / -                         0.49 / 0.00 / 0.02 / 0.00 / 100.00        
  grad_node_creation                                  132     0.77 / 0.01 / 0.03 / 0.00 / 23.18         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
log_softmax_grad grad_node                            22      0.50 / 0.02 / 0.04 / 0.01 / 0.03          0.44 / 0.02 / 0.02 / 0.02 / 0.05          
  infer_shape                                         22      0.02 / 0.00 / 0.00 / 0.00 / 3.60          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.33 / 0.01 / 0.03 / 0.01 / 64.38         0.44 / 0.02 / 0.02 / 0.02 / 100.00        
    void cudnn::softmax_bw_kernel<2, float, float...  22      - / - / - / - / -                         0.44 / 0.02 / 0.02 / 0.02 / 100.00        
kldiv_loss_grad grad_node                             22      0.38 / 0.02 / 0.05 / 0.01 / 0.02          0.27 / 0.01 / 0.02 / 0.01 / 0.03          
  infer_shape                                         22      0.02 / 0.00 / 0.00 / 0.00 / 4.26          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.19 / 0.01 / 0.03 / 0.01 / 48.39         0.27 / 0.01 / 0.02 / 0.01 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  22      - / - / - / - / -                         0.27 / 0.01 / 0.02 / 0.01 / 100.00        
masked_select                                         22      1.18 / 0.05 / 0.08 / 0.04 / 0.07          0.27 / 0.01 / 0.02 / 0.01 / 0.03          
  infer_shape                                         22      0.04 / 0.00 / 0.00 / 0.00 / 3.29          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.90 / 0.04 / 0.06 / 0.03 / 76.46         0.27 / 0.01 / 0.02 / 0.01 / 100.00        
    void phi::funcs::GetBlockCountKernel<bool, lo...  22      - / - / - / - / -                         0.05 / 0.00 / 0.00 / 0.00 / 19.13         
    void phi::funcs::CumsumOneBlock<long, long, p...  22      - / - / - / - / -                         0.09 / 0.00 / 0.01 / 0.00 / 34.89         
    void phi::funcs::SelectKernel<bool, int, long...  11      - / - / - / - / -                         0.05 / 0.00 / 0.01 / 0.00 / 19.17         
    void phi::funcs::SelectKernel<bool, long, lon...  11      - / - / - / - / -                         0.05 / 0.00 / 0.01 / 0.00 / 19.33         
  grad_node_creation                                  22      0.07 / 0.00 / 0.01 / 0.00 / 5.59          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
kldiv_loss                                            22      0.67 / 0.03 / 0.05 / 0.03 / 0.04          0.27 / 0.01 / 0.02 / 0.01 / 0.03          
  infer_shape                                         22      0.07 / 0.00 / 0.00 / 0.00 / 9.68          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.25 / 0.01 / 0.01 / 0.01 / 36.57         0.27 / 0.01 / 0.02 / 0.01 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  22      - / - / - / - / -                         0.27 / 0.01 / 0.02 / 0.01 / 100.00        
  grad_node_creation                                  22      0.14 / 0.01 / 0.01 / 0.00 / 20.72         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
log_softmax                                           22      0.70 / 0.03 / 0.04 / 0.03 / 0.04          0.25 / 0.01 / 0.01 / 0.01 / 0.03          
  infer_shape                                         22      0.06 / 0.00 / 0.00 / 0.00 / 8.06          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.39 / 0.02 / 0.02 / 0.01 / 55.82         0.25 / 0.01 / 0.01 / 0.01 / 100.00        
    void cudnn::ops::softmax_fw_kernel_resident<2...  22      - / - / - / - / -                         0.25 / 0.01 / 0.01 / 0.01 / 100.00        
  grad_node_creation                                  22      0.09 / 0.00 / 0.01 / 0.00 / 13.22         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
one_hot_v2                                            22      0.61 / 0.03 / 0.04 / 0.02 / 0.04          0.16 / 0.01 / 0.01 / 0.01 / 0.02          
  infer_shape                                         22      0.08 / 0.00 / 0.00 / 0.00 / 12.72         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.36 / 0.02 / 0.02 / 0.01 / 59.31         0.16 / 0.01 / 0.01 / 0.01 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  22      - / - / - / - / -                         0.12 / 0.01 / 0.01 / 0.00 / 71.49         
    void phi::FillOutputKernel<int, float>(int co...  22      - / - / - / - / -                         0.05 / 0.00 / 0.00 / 0.00 / 28.51         
  grad_node_creation                                  22      0.00 / 0.00 / 0.00 / 0.00 / 0.34          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
reduce_sum_grad grad_node                             33      0.63 / 0.02 / 0.03 / 0.01 / 0.04          0.15 / 0.00 / 0.01 / 0.00 / 0.02          
  infer_shape                                         33      0.04 / 0.00 / 0.00 / 0.00 / 5.73          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             33      0.38 / 0.01 / 0.02 / 0.01 / 61.36         0.15 / 0.00 / 0.01 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<fl...  33      - / - / - / - / -                         0.15 / 0.00 / 0.01 / 0.00 / 100.00        
arg_max                                               11      0.30 / 0.03 / 0.03 / 0.03 / 0.02          0.14 / 0.01 / 0.01 / 0.01 / 0.02          
  infer_shape                                         11      0.05 / 0.00 / 0.00 / 0.00 / 16.21         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      0.15 / 0.01 / 0.01 / 0.01 / 49.23         0.14 / 0.01 / 0.01 / 0.01 / 100.00        
    void phi::ArgCUDAKernel<float, long, cub::Arg...  11      - / - / - / - / -                         0.14 / 0.01 / 0.01 / 0.01 / 100.00        
  grad_node_creation                                  11      0.00 / 0.00 / 0.00 / 0.00 / 1.36          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
reduce_max                                            33      69.65 / 2.11 / 10.94 / 0.04 / 4.41        0.09 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         33      0.18 / 0.01 / 0.01 / 0.00 / 0.25          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             33      1.18 / 0.04 / 0.06 / 0.02 / 1.70          0.08 / 0.00 / 0.00 / 0.00 / 90.62         
    void cub::DeviceReduceSingleTileKernel<cub::D...  33      - / - / - / - / -                         0.08 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  33      0.01 / 0.00 / 0.00 / 0.00 / 0.01          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  GpuMemcpySync:CUDAPinned->GPU                       11      67.67 / 6.15 / 10.85 / 0.03 / 97.16       0.01 / 0.00 / 0.00 / 0.00 / 9.38          
    MEMCPY_HtoD                                       11      - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
greater_equal                                         33      0.91 / 0.03 / 0.04 / 0.02 / 0.06          0.08 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         33      0.09 / 0.00 / 0.00 / 0.00 / 9.77          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             33      0.52 / 0.02 / 0.02 / 0.01 / 57.45         0.08 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<lo...  33      - / - / - / - / -                         0.08 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  33      0.00 / 0.00 / 0.00 / 0.00 / 0.37          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
lookup_table_v2                                       22      0.79 / 0.04 / 0.05 / 0.03 / 0.05          0.08 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         22      0.03 / 0.00 / 0.00 / 0.00 / 3.98          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.28 / 0.01 / 0.01 / 0.01 / 35.32         0.08 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::EmbeddingFW<float, int, false>(floa...  22      - / - / - / - / -                         0.08 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  22      0.22 / 0.01 / 0.01 / 0.01 / 28.03         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
logical_not                                           33      0.64 / 0.02 / 0.03 / 0.02 / 0.04          0.08 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         33      0.02 / 0.00 / 0.00 / 0.00 / 3.76          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             33      0.39 / 0.01 / 0.02 / 0.01 / 60.38         0.08 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<bo...  33      - / - / - / - / -                         0.08 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  33      0.00 / 0.00 / 0.00 / 0.00 / 0.36          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
bitwise_and                                           22      0.46 / 0.02 / 0.02 / 0.02 / 0.03          0.07 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         22      0.03 / 0.00 / 0.00 / 0.00 / 7.00          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.28 / 0.01 / 0.01 / 0.01 / 61.53         0.07 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<bo...  22      - / - / - / - / -                         0.07 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  22      0.00 / 0.00 / 0.00 / 0.00 / 0.43          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
strided_slice                                         22      0.58 / 0.03 / 0.03 / 0.02 / 0.04          0.07 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         22      0.09 / 0.00 / 0.01 / 0.00 / 15.87         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.27 / 0.01 / 0.02 / 0.01 / 46.32         0.07 / 0.00 / 0.00 / 0.00 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  22      - / - / - / - / -                         0.07 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  22      0.00 / 0.00 / 0.00 / 0.00 / 0.36          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
range                                                 33      0.93 / 0.03 / 0.04 / 0.02 / 0.06          0.07 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         33      0.09 / 0.00 / 0.00 / 0.00 / 9.86          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             33      0.49 / 0.01 / 0.03 / 0.01 / 52.53         0.07 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::Range<long>(long, long, long, long*)    33      - / - / - / - / -                         0.07 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  33      0.01 / 0.00 / 0.00 / 0.00 / 0.57          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
tril_triu                                             22      0.45 / 0.02 / 0.02 / 0.02 / 0.03          0.05 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         22      0.06 / 0.00 / 0.00 / 0.00 / 13.70         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.23 / 0.01 / 0.01 / 0.01 / 49.99         0.05 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::ForRangeElemwiseOpGridIsOne<...  22      - / - / - / - / -                         0.05 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  22      0.00 / 0.00 / 0.00 / 0.00 / 0.38          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
logical_and                                           11      0.26 / 0.02 / 0.03 / 0.02 / 0.02          0.04 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         11      0.01 / 0.00 / 0.00 / 0.00 / 5.68          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      0.15 / 0.01 / 0.02 / 0.01 / 58.32         0.04 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<bo...  11      - / - / - / - / -                         0.04 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  11      0.00 / 0.00 / 0.00 / 0.00 / 0.42          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
not_equal                                             11      0.30 / 0.03 / 0.03 / 0.02 / 0.02          0.03 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         11      0.03 / 0.00 / 0.00 / 0.00 / 11.29         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      0.15 / 0.01 / 0.02 / 0.01 / 50.23         0.03 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<in...  11      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  11      0.00 / 0.00 / 0.00 / 0.00 / 0.59          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
bitwise_not                                           11      0.20 / 0.02 / 0.02 / 0.02 / 0.01          0.02 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         11      0.01 / 0.00 / 0.00 / 0.00 / 4.33          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      0.11 / 0.01 / 0.01 / 0.01 / 54.64         0.02 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  11      - / - / - / - / -                         0.02 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  11      0.00 / 0.00 / 0.00 / 0.00 / 0.40          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
elementwise_div                                       3       0.08 / 0.03 / 0.03 / 0.03 / 0.00          0.01 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         3       0.00 / 0.00 / 0.00 / 0.00 / 3.84          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             3       0.04 / 0.01 / 0.01 / 0.01 / 54.59         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<fl...  3       - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  3       0.00 / 0.00 / 0.00 / 0.00 / 0.32          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
randint                                               11      15.09 / 1.37 / 1.50 / 1.21 / 0.96         0.01 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         11      0.02 / 0.00 / 0.00 / 0.00 / 0.11          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      14.99 / 1.36 / 1.49 / 1.20 / 99.29        0.01 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  11      0.00 / 0.00 / 0.00 / 0.00 / 0.01          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
elementwise_max                                       3       0.09 / 0.03 / 0.03 / 0.03 / 0.01          0.01 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         3       0.00 / 0.00 / 0.00 / 0.00 / 4.18          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             3       0.05 / 0.02 / 0.02 / 0.02 / 56.97         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<fl...  3       - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  3       0.00 / 0.00 / 0.00 / 0.00 / 0.27          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
sqrt                                                  3       0.06 / 0.02 / 0.02 / 0.02 / 0.00          0.01 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         3       0.00 / 0.00 / 0.00 / 0.00 / 2.03          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             3       0.04 / 0.01 / 0.01 / 0.01 / 57.96         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  3       - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  3       0.00 / 0.00 / 0.00 / 0.00 / 0.33          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
reshape2_grad grad_node                               1221    8.08 / 0.01 / 0.02 / 0.00 / 0.51          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         1221    0.93 / 0.00 / 0.00 / 0.00 / 11.52         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1221    1.02 / 0.00 / 0.00 / 0.00 / 12.61         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
squeeze2_grad grad_node                               539     4.55 / 0.01 / 0.02 / 0.01 / 0.29          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         539     0.38 / 0.00 / 0.01 / 0.00 / 8.36          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             539     0.91 / 0.00 / 0.02 / 0.00 / 20.07         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
squeeze2                                              682     11.43 / 0.02 / 0.05 / 0.01 / 0.72         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         682     2.34 / 0.00 / 0.02 / 0.00 / 20.47         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             682     1.70 / 0.00 / 0.02 / 0.00 / 14.91         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  grad_node_creation                                  682     2.05 / 0.00 / 0.03 / 0.00 / 17.92         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
reshape2                                              1265    20.01 / 0.02 / 0.25 / 0.01 / 1.27         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         1265    2.34 / 0.00 / 0.00 / 0.00 / 11.72         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1265    2.89 / 0.00 / 0.02 / 0.00 / 14.44         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  grad_node_creation                                  1265    4.61 / 0.00 / 0.08 / 0.00 / 23.03         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
unsqueeze2                                            1617    23.40 / 0.01 / 0.04 / 0.01 / 1.48         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         1617    4.77 / 0.00 / 0.02 / 0.00 / 20.36         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1617    2.96 / 0.00 / 0.02 / 0.00 / 12.65         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  grad_node_creation                                  1617    4.60 / 0.00 / 0.03 / 0.00 / 19.66         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
shape                                                 11      0.17 / 0.02 / 0.03 / 0.01 / 0.01          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         11      0.02 / 0.00 / 0.00 / 0.00 / 14.32         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      0.04 / 0.00 / 0.00 / 0.00 / 21.14         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  grad_node_creation                                  11      0.00 / 0.00 / 0.00 / 0.00 / 0.52          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
----------------------------------------------------  ------  ----------------------------------------  ----------------------------------------  
yeyupiaoling commented 1 year ago

@Caozhou1995 这白名单custom_white_list不需要设置也行的吧,可以自动获取支持float16的op吧?

Caozhou1995 commented 1 year ago

可以的。可以看amp fp16和fp32的使用说明:https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/performance_improving/amp_cn.html#id2

Caozhou1995 commented 1 year ago

summary信息是开启amp后的吗?没在里面看到fp16

yeyupiaoling commented 1 year ago

这个是没有用混合精度的

Caozhou1995 commented 1 year ago

麻烦再提供一下使用混合精度的summary信息

yeyupiaoling commented 1 year ago

好的,明天发下

yeyupiaoling commented 1 year ago

@Caozhou1995 这个是开启了混合精度的。

----------------------------------------------------------------Operator Summary----------------------------------------------------------------
Time unit: ms
----------------------------------------------------  ------  ----------------------------------------  ----------------------------------------  
Name                                                  Calls   CPU Total / Avg / Max / Min / Ratio(%)    GPU Total / Avg / Max / Min / Ratio(%)    
----------------------------------------------------  ------  ----------------------------------------  ----------------------------------------  
-----------------------------------------------------------Thread: All threads merged-----------------------------------------------------------
matmul_v2_grad grad_node                              2552    241.50 / 0.09 / 2.81 / 0.03 / 9.80        206.85 / 0.08 / 0.79 / 0.01 / 24.21       
  infer_shape                                         2552    6.12 / 0.00 / 0.03 / 0.00 / 2.53          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             2552    207.25 / 0.08 / 2.79 / 0.02 / 85.82       206.85 / 0.08 / 0.79 / 0.01 / 100.00      
    turing_fp16_s1688gemm_fp16_128x128_ldg8_f2f_tn    275     - / - / - / - / -                         18.15 / 0.07 / 0.13 / 0.06 / 8.78         
    MEMSET                                            610     - / - / - / - / -                         0.49 / 0.00 / 0.00 / 0.00 / 0.24          
    turing_fp16_s1688gemm_fp16_256x128_ldg8_f2f_nt    11      - / - / - / - / -                         1.49 / 0.14 / 0.14 / 0.13 / 0.72          
    turing_fp16_s1688gemm_fp16_128x64_sliced1x2_l...  210     - / - / - / - / -                         9.89 / 0.05 / 0.08 / 0.01 / 4.78          
    turing_fp16_s1688gemm_fp16_128x128_ldg8_f2f_s...  1188    - / - / - / - / -                         39.65 / 0.03 / 0.07 / 0.02 / 19.17        
    turing_fp16_s1688gemm_fp16_64x128_sliced1x2_l...  780     - / - / - / - / -                         17.70 / 0.02 / 0.07 / 0.01 / 8.56         
    void splitKreduce_kernel<32, 16, int, __half,...  699     - / - / - / - / -                         3.31 / 0.00 / 0.01 / 0.00 / 1.60          
    void cutlass::Kernel<cutlass_75_wmma_tensorop...  528     - / - / - / - / -                         4.08 / 0.01 / 0.02 / 0.01 / 1.97          
    void cutlass::Kernel<cutlass_75_wmma_tensorop...  6144    - / - / - / - / -                         27.42 / 0.00 / 0.02 / 0.00 / 13.25        
    void cutlass::Kernel<cutlass_75_tensorop_h168...  192     - / - / - / - / -                         1.80 / 0.01 / 0.01 / 0.01 / 0.87          
    void phi::funcs::ReduceHigherDimKernel<phi::d...  132     - / - / - / - / -                         0.49 / 0.00 / 0.00 / 0.00 / 0.23          
    void cutlass::Kernel<cutlass_75_tensorop_h168...  48      - / - / - / - / -                         0.51 / 0.01 / 0.02 / 0.01 / 0.25          
    void cutlass::Kernel<cutlass_75_tensorop_h168...  48      - / - / - / - / -                         0.59 / 0.01 / 0.01 / 0.01 / 0.28          
    turing_fp16_s1688gemm_fp16_64x64_sliced1x4_ld...  456     - / - / - / - / -                         5.34 / 0.01 / 0.02 / 0.01 / 2.58          
    void gemmSN_NN_kernel_half<__half, 256, 8, 4,...  132     - / - / - / - / -                         3.02 / 0.02 / 0.03 / 0.02 / 1.46          
    void cutlass::Kernel<cutlass_75_wmma_tensorop...  120     - / - / - / - / -                         0.96 / 0.01 / 0.01 / 0.01 / 0.47          
    void gemmSN_TN_kernel_half<256, 8, 2, 4, 5, c...  132     - / - / - / - / -                         2.34 / 0.02 / 0.03 / 0.01 / 1.13          
    turing_fp16_s1688gemm_fp16_64x64_sliced1x4_ld...  132     - / - / - / - / -                         1.76 / 0.01 / 0.01 / 0.01 / 0.85          
    void cutlass::Kernel<cutlass_75_tensorop_f16_...  33      - / - / - / - / -                         2.24 / 0.07 / 0.13 / 0.04 / 1.08          
    void cutlass::Kernel<cutlass_75_tensorop_f16_...  22      - / - / - / - / -                         0.64 / 0.03 / 0.03 / 0.03 / 0.31          
    void cutlass::Kernel<cutlass_75_tensorop_f16_...  11      - / - / - / - / -                         1.17 / 0.11 / 0.11 / 0.10 / 0.57          
    void cutlass::Kernel<cutlass_75_wmma_tensorop...  9216    - / - / - / - / -                         52.18 / 0.01 / 0.02 / 0.01 / 25.23        
    void cutlass::Kernel<cutlass_75_tensorop_h168...  300     - / - / - / - / -                         2.74 / 0.01 / 0.02 / 0.01 / 1.32          
    void cutlass::Kernel<cutlass_75_tensorop_h168...  72      - / - / - / - / -                         0.77 / 0.01 / 0.01 / 0.01 / 0.37          
    void cutlass::Kernel<cutlass_75_tensorop_h168...  72      - / - / - / - / -                         0.92 / 0.01 / 0.01 / 0.01 / 0.44          
    void cutlass::Kernel<cutlass_75_wmma_tensorop...  1536    - / - / - / - / -                         6.27 / 0.00 / 0.00 / 0.00 / 3.03          
    turing_h1688gemm_128x128_ldg8_stages_32x1_nt      48      - / - / - / - / -                         0.53 / 0.01 / 0.01 / 0.01 / 0.26          
    turing_h1688gemm_128x128_ldg8_stages_32x1_nn      12      - / - / - / - / -                         0.14 / 0.01 / 0.01 / 0.01 / 0.07          
    turing_h1688gemm_128x128_ldg8_stages_32x1_tn      12      - / - / - / - / -                         0.16 / 0.01 / 0.01 / 0.01 / 0.08          
    turing_fp16_s1688gemm_fp16_128x128_ldg8_f2f_s...  6       - / - / - / - / -                         0.10 / 0.02 / 0.02 / 0.02 / 0.05          
cast grad_node                                        7711    109.85 / 0.01 / 1.92 / 0.01 / 4.46        74.89 / 0.01 / 0.43 / 0.00 / 8.76         
  infer_shape                                         7711    3.13 / 0.00 / 0.02 / 0.00 / 2.85          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             7711    50.91 / 0.01 / 0.05 / 0.00 / 46.34        61.88 / 0.01 / 0.43 / 0.00 / 82.63        
    void phi::funcs::VectorizedElementwiseKernel<...  5137    - / - / - / - / -                         36.63 / 0.01 / 0.43 / 0.00 / 59.19        
    void phi::funcs::VectorizedElementwiseKernel<...  2574    - / - / - / - / -                         25.25 / 0.01 / 0.40 / 0.00 / 40.81        
  void axpy_kernel_val<float, float>(cublasAxpyPa...  1920    - / - / - / - / -                         13.01 / 0.01 / 0.03 / 0.00 / 17.37        
conv2d_grad grad_node                                 286     862.34 / 3.02 / 7.14 / 0.36 / 35.00       70.56 / 0.25 / 3.74 / 0.06 / 8.26         
  infer_shape                                         286     0.25 / 0.00 / 0.00 / 0.00 / 0.03          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             286     856.79 / 3.00 / 7.11 / 0.35 / 99.36       70.56 / 0.25 / 3.74 / 0.06 / 100.00       
    void cudnn::ops::nchwToNhwcKernel<__half, __h...  791     - / - / - / - / -                         13.55 / 0.02 / 0.29 / 0.00 / 19.20        
    MEMSET                                            41      - / - / - / - / -                         0.56 / 0.01 / 0.04 / 0.00 / 0.79          
    void xmma_cudnn::ext::implicit_gemm::kernel<x...  7       - / - / - / - / -                         6.55 / 0.94 / 0.98 / 0.88 / 9.29          
    void cudnn::ops::nhwcToNchwKernel<__half, __h...  237     - / - / - / - / -                         4.35 / 0.02 / 0.28 / 0.00 / 6.17          
    void xmma_cudnn::implicit_gemm::strided_dgrad...  5       - / - / - / - / -                         0.02 / 0.00 / 0.00 / 0.00 / 0.02          
    void xmma_cudnn::implicit_gemm::strided_dgrad...  5       - / - / - / - / -                         0.02 / 0.00 / 0.00 / 0.00 / 0.03          
    void xmma_cudnn::implicit_gemm::strided_dgrad...  5       - / - / - / - / -                         0.02 / 0.00 / 0.00 / 0.00 / 0.02          
    void xmma_cudnn::implicit_gemm::strided_dgrad...  5       - / - / - / - / -                         0.08 / 0.02 / 0.02 / 0.02 / 0.11          
    void xmma_cudnn::implicit_gemm::strided_dgrad...  5       - / - / - / - / -                         5.44 / 1.09 / 1.18 / 1.00 / 7.71          
    void xmma_cudnn::gemm::kernel<xmma_cudnn::imp...  11      - / - / - / - / -                         11.17 / 1.02 / 1.08 / 0.92 / 15.83        
    void cask_cudnn::computeOffsetsKernel<true, f...  24      - / - / - / - / -                         0.06 / 0.00 / 0.00 / 0.00 / 0.09          
    cask_cudnn::computeBOffsetsKernel(cask_cudnn:...  24      - / - / - / - / -                         0.06 / 0.00 / 0.00 / 0.00 / 0.08          
    turing_fp16_s1688cudnn_fp16_128x128_ldg8_dgra...  12      - / - / - / - / -                         0.42 / 0.03 / 0.04 / 0.03 / 0.59          
    void xmma_cudnn::gemm::kernel<xmma_cudnn::imp...  264     - / - / - / - / -                         7.91 / 0.03 / 0.04 / 0.02 / 11.21         
    void xmma_cudnn::gemm::kernel<xmma_cudnn::imp...  120     - / - / - / - / -                         3.11 / 0.03 / 0.03 / 0.02 / 4.41          
    void xmma_cudnn::gemm::kernel<xmma_cudnn::imp...  4       - / - / - / - / -                         1.71 / 0.43 / 0.44 / 0.39 / 2.42          
    void xmma_cudnn::gemm::split_k_kernel<xmma_cu...  4       - / - / - / - / -                         0.03 / 0.01 / 0.01 / 0.01 / 0.05          
    void xmma_cudnn::implicit_gemm::strided_dgrad...  6       - / - / - / - / -                         0.02 / 0.00 / 0.00 / 0.00 / 0.03          
    void xmma_cudnn::implicit_gemm::strided_dgrad...  6       - / - / - / - / -                         0.02 / 0.00 / 0.00 / 0.00 / 0.03          
    void xmma_cudnn::implicit_gemm::strided_dgrad...  6       - / - / - / - / -                         0.02 / 0.00 / 0.00 / 0.00 / 0.03          
    void xmma_cudnn::implicit_gemm::strided_dgrad...  6       - / - / - / - / -                         0.10 / 0.02 / 0.02 / 0.02 / 0.14          
    void xmma_cudnn::implicit_gemm::strided_dgrad...  6       - / - / - / - / -                         11.13 / 1.85 / 1.90 / 1.77 / 15.77        
    void xmma_cudnn::gemm::kernel<xmma_cudnn::imp...  72      - / - / - / - / -                         2.13 / 0.03 / 0.03 / 0.03 / 3.01          
    void cutlass::Kernel<cutlass_75_tensorop_f16_...  36      - / - / - / - / -                         1.31 / 0.04 / 0.04 / 0.04 / 1.86          
    volta_fp16_s884cudnn_fp16_128x128_ldg8_dgrad_...  12      - / - / - / - / -                         0.38 / 0.03 / 0.03 / 0.03 / 0.54          
    turing_fp16_s1688gemm_fp16_128x128_ldg8_f2f_s...  12      - / - / - / - / -                         0.40 / 0.03 / 0.04 / 0.03 / 0.57          
cast                                                  8272    174.81 / 0.02 / 0.86 / 0.01 / 7.10        68.74 / 0.01 / 0.44 / 0.00 / 8.04         
  infer_shape                                         8272    3.99 / 0.00 / 0.02 / 0.00 / 2.28          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             8272    85.14 / 0.01 / 0.57 / 0.01 / 48.71        68.74 / 0.01 / 0.44 / 0.00 / 100.00       
    void phi::funcs::VectorizedElementwiseKernel<...  363     - / - / - / - / -                         0.82 / 0.00 / 0.00 / 0.00 / 1.19          
    void phi::funcs::VectorizedElementwiseKernel<...  2574    - / - / - / - / -                         27.58 / 0.01 / 0.44 / 0.00 / 40.12        
    void phi::funcs::VectorizedElementwiseKernel<...  5280    - / - / - / - / -                         40.20 / 0.01 / 0.40 / 0.00 / 58.48        
    void phi::funcs::VectorizedElementwiseKernel<...  44      - / - / - / - / -                         0.11 / 0.00 / 0.00 / 0.00 / 0.16          
    void phi::funcs::VectorizedElementwiseKernel<...  11      - / - / - / - / -                         0.03 / 0.00 / 0.01 / 0.00 / 0.05          
  grad_node_creation                                  8272    32.47 / 0.00 / 0.85 / 0.00 / 18.57        0.00 / 0.00 / 0.00 / 0.00 / 0.00          
elementwise_add_grad grad_node                        3344    98.34 / 0.03 / 0.10 / 0.01 / 3.99         50.78 / 0.02 / 0.30 / 0.00 / 5.94         
  infer_shape                                         3344    2.30 / 0.00 / 0.02 / 0.00 / 2.34          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             3344    54.78 / 0.02 / 0.05 / 0.00 / 55.71        45.48 / 0.01 / 0.30 / 0.00 / 89.58        
    void phi::funcs::ReduceAnyKernel<float, float...  682     - / - / - / - / -                         9.42 / 0.01 / 0.30 / 0.01 / 20.71         
    void phi::funcs::ReduceHigherDimKernel<float,...  3376    - / - / - / - / -                         32.29 / 0.01 / 0.11 / 0.00 / 70.99        
    void phi::SimpleElemwiseAddGradCUDAKernel<flo...  22      - / - / - / - / -                         0.05 / 0.00 / 0.00 / 0.00 / 0.12          
  void axpy_kernel_val<float, float>(cublasAxpyPa...  1716    - / - / - / - / -                         5.29 / 0.00 / 0.01 / 0.00 / 10.42         
warpctc                                               11      40.08 / 3.64 / 3.85 / 3.29 / 1.63         35.36 / 3.21 / 3.39 / 2.94 / 4.14         
  infer_shape                                         11      0.05 / 0.00 / 0.00 / 0.00 / 0.12          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      39.69 / 3.61 / 3.81 / 3.26 / 99.01        35.36 / 3.21 / 3.39 / 2.94 / 100.00       
    void Eigen::internal::EigenMetaKernel<Eigen::...  22      - / - / - / - / -                         1.38 / 0.06 / 0.07 / 0.05 / 3.89          
    void paddle::operators::math::SequencePadding...  11      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 0.10          
    MEMCPY_HtoD                                       55      - / - / - / - / -                         0.04 / 0.00 / 0.00 / 0.00 / 0.12          
    MEMCPY_DtoD                                       11      - / - / - / - / -                         1.19 / 0.11 / 0.11 / 0.10 / 3.35          
    void reduce_rows<128, ctc_helper::identity<fl...  11      - / - / - / - / -                         0.64 / 0.06 / 0.06 / 0.05 / 1.80          
    void prepare_stable_SM_kernel<float, 1, ctc_h...  11      - / - / - / - / -                         1.16 / 0.11 / 0.11 / 0.10 / 3.27          
    void reduce_rows<128, ctc_helper::exponential...  11      - / - / - / - / -                         0.64 / 0.06 / 0.06 / 0.05 / 1.81          
    void compute_probs_kernel<float, 1, ctc_helpe...  11      - / - / - / - / -                         1.20 / 0.11 / 0.12 / 0.10 / 3.39          
    void truncate_probs_kernel<float, 1>(float*, ...  11      - / - / - / - / -                         0.82 / 0.07 / 0.08 / 0.07 / 2.33          
    void compute_alpha_kernel<float, 32, 1>(float...  11      - / - / - / - / -                         0.85 / 0.08 / 0.08 / 0.07 / 2.41          
    void compute_betas_and_grad_kernel<float, 32,...  11      - / - / - / - / -                         26.17 / 2.38 / 2.51 / 2.17 / 74.02        
    MEMCPY_DtoH                                       11      - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 0.03          
  grad_node_creation                                  11      0.16 / 0.01 / 0.02 / 0.01 / 0.39          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
layer_norm_grad grad_node                             1023    52.55 / 0.05 / 0.11 / 0.03 / 2.13         34.25 / 0.03 / 0.05 / 0.01 / 4.01         
  infer_shape                                         1023    1.40 / 0.00 / 0.00 / 0.00 / 2.66          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1023    20.39 / 0.02 / 0.06 / 0.01 / 38.81        24.81 / 0.02 / 0.04 / 0.01 / 72.43        
    void paddle::operators::LayerNormBackwardPart...  1023    - / - / - / - / -                         9.19 / 0.01 / 0.02 / 0.00 / 37.02         
    void paddle::operators::LayerNormBackwardSumG...  1023    - / - / - / - / -                         3.09 / 0.00 / 0.01 / 0.00 / 12.44         
    void paddle::operators::LayerNormBackwardComp...  1023    - / - / - / - / -                         12.54 / 0.01 / 0.03 / 0.01 / 50.53        
  void axpy_kernel_val<float, float>(cublasAxpyPa...  2214    - / - / - / - / -                         9.44 / 0.00 / 0.02 / 0.00 / 27.57         
dropout                                               1386    49.64 / 0.04 / 1.09 / 0.02 / 2.01         22.93 / 0.02 / 0.07 / 0.00 / 2.68         
  infer_shape                                         1386    5.15 / 0.00 / 0.02 / 0.00 / 10.38         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1386    19.56 / 0.01 / 0.07 / 0.01 / 39.39        22.93 / 0.02 / 0.07 / 0.00 / 100.00       
    void paddle::operators::VectorizedRandomGener...  1386    - / - / - / - / -                         22.93 / 0.02 / 0.07 / 0.00 / 100.00       
  grad_node_creation                                  1386    8.06 / 0.01 / 1.06 / 0.00 / 16.23         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
swish_grad grad_node                                  396     6.96 / 0.02 / 0.04 / 0.01 / 0.28          22.41 / 0.06 / 0.09 / 0.01 / 2.62         
  infer_shape                                         396     0.24 / 0.00 / 0.02 / 0.00 / 3.40          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             396     3.25 / 0.01 / 0.03 / 0.01 / 46.66         22.41 / 0.06 / 0.09 / 0.01 / 100.00       
    void phi::funcs::VectorizedElementwiseKernel<...  396     - / - / - / - / -                         22.41 / 0.06 / 0.09 / 0.01 / 100.00       
dropout_grad grad_node                                1353    27.96 / 0.02 / 1.89 / 0.01 / 1.13         21.32 / 0.02 / 0.07 / 0.00 / 2.49         
  infer_shape                                         1353    0.96 / 0.00 / 0.03 / 0.00 / 3.44          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1353    16.18 / 0.01 / 1.87 / 0.01 / 57.88        21.32 / 0.02 / 0.07 / 0.00 / 100.00       
    void phi::funcs::VectorizedElementwiseKernel<...  1353    - / - / - / - / -                         21.32 / 0.02 / 0.07 / 0.00 / 100.00       
adam                                                  1860    33.69 / 0.02 / 0.07 / 0.02 / 1.37         17.98 / 0.01 / 0.07 / 0.01 / 2.10         
  infer_shape                                         1860    2.25 / 0.00 / 0.01 / 0.00 / 6.68          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1860    18.95 / 0.01 / 0.04 / 0.01 / 56.26        17.98 / 0.01 / 0.07 / 0.01 / 100.00       
    void paddle::operators::AdamKernelMEM<float, ...  1860    - / - / - / - / -                         13.48 / 0.01 / 0.07 / 0.00 / 74.97        
    void paddle::operators::UpdateBetaPow<float>(...  1860    - / - / - / - / -                         4.50 / 0.00 / 0.01 / 0.00 / 25.03         
  grad_node_creation                                  1860    0.11 / 0.00 / 0.00 / 0.00 / 0.33          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
depthwise_conv2d_grad grad_node                       132     6.13 / 0.05 / 0.07 / 0.04 / 0.25          17.04 / 0.13 / 0.14 / 0.11 / 1.99         
  infer_shape                                         132     0.12 / 0.00 / 0.00 / 0.00 / 1.96          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     4.15 / 0.03 / 0.06 / 0.03 / 67.70         17.04 / 0.13 / 0.14 / 0.11 / 100.00       
    void Eigen::internal::EigenMetaKernel<Eigen::...  264     - / - / - / - / -                         0.93 / 0.00 / 0.01 / 0.00 / 5.45          
    void paddle::operators::math::KernelDepthwise...  132     - / - / - / - / -                         4.38 / 0.03 / 0.04 / 0.02 / 25.72         
    void paddle::operators::math::KernelDepthwise...  132     - / - / - / - / -                         11.73 / 0.09 / 0.09 / 0.08 / 68.83        
swish                                                 396     10.88 / 0.03 / 0.05 / 0.02 / 0.44         15.37 / 0.04 / 0.07 / 0.00 / 1.80         
  infer_shape                                         396     0.20 / 0.00 / 0.00 / 0.00 / 1.88          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             396     4.63 / 0.01 / 0.03 / 0.01 / 42.55         15.37 / 0.04 / 0.07 / 0.00 / 100.00       
    void phi::funcs::VectorizedElementwiseKernel<...  396     - / - / - / - / -                         15.37 / 0.04 / 0.07 / 0.00 / 100.00       
  grad_node_creation                                  396     1.64 / 0.00 / 0.03 / 0.00 / 15.10         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
set_value                                             956     44.53 / 0.05 / 0.12 / 0.04 / 1.81         14.98 / 0.02 / 0.03 / 0.01 / 1.75         
  infer_shape                                         956     2.76 / 0.00 / 0.02 / 0.00 / 6.21          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             956     30.37 / 0.03 / 0.09 / 0.02 / 68.20        14.98 / 0.02 / 0.03 / 0.01 / 100.00       
    void Eigen::internal::EigenMetaKernel<Eigen::...  704     - / - / - / - / -                         1.63 / 0.00 / 0.02 / 0.00 / 10.90         
    void Eigen::internal::EigenMetaKernel<Eigen::...  704     - / - / - / - / -                         1.85 / 0.00 / 0.01 / 0.00 / 12.37         
    void phi::funcs::VectorizedBroadcastKernel<in...  352     - / - / - / - / -                         0.87 / 0.00 / 0.00 / 0.00 / 5.84          
    void Eigen::internal::EigenMetaKernel<Eigen::...  352     - / - / - / - / -                         0.89 / 0.00 / 0.00 / 0.00 / 5.96          
    void Eigen::internal::EigenMetaKernel<Eigen::...  1208    - / - / - / - / -                         2.87 / 0.00 / 0.00 / 0.00 / 19.14         
    void Eigen::internal::EigenMetaKernel<Eigen::...  1208    - / - / - / - / -                         3.13 / 0.00 / 0.01 / 0.00 / 20.88         
    void phi::funcs::VectorizedBroadcastKernel<bo...  604     - / - / - / - / -                         1.60 / 0.00 / 0.00 / 0.00 / 10.65         
    void Eigen::internal::EigenMetaKernel<Eigen::...  604     - / - / - / - / -                         1.67 / 0.00 / 0.01 / 0.00 / 11.14         
  grad_node_creation                                  956     0.09 / 0.00 / 0.00 / 0.00 / 0.19          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
transpose2                                            1738    47.37 / 0.03 / 0.13 / 0.02 / 1.92         14.38 / 0.01 / 0.15 / 0.00 / 1.68         
  infer_shape                                         1738    2.45 / 0.00 / 0.03 / 0.00 / 5.17          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1738    20.61 / 0.01 / 0.10 / 0.01 / 43.50        14.38 / 0.01 / 0.15 / 0.00 / 100.00       
    void Eigen::internal::EigenMetaKernel<Eigen::...  11      - / - / - / - / -                         1.27 / 0.12 / 0.13 / 0.10 / 8.84          
    void Eigen::internal::EigenMetaKernel<Eigen::...  396     - / - / - / - / -                         1.59 / 0.00 / 0.01 / 0.00 / 11.03         
    void Eigen::internal::EigenMetaKernel<Eigen::...  803     - / - / - / - / -                         7.78 / 0.01 / 0.15 / 0.00 / 54.12         
    void paddle::operators::TilingSwapDim1And2<fl...  528     - / - / - / - / -                         3.74 / 0.01 / 0.01 / 0.01 / 26.02         
  grad_node_creation                                  1738    6.66 / 0.00 / 0.04 / 0.00 / 14.05         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
transpose2_grad grad_node                             1738    28.58 / 0.02 / 0.05 / 0.01 / 1.16         13.89 / 0.01 / 0.15 / 0.00 / 1.62         
  infer_shape                                         1738    1.28 / 0.00 / 0.01 / 0.00 / 4.47          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1738    15.20 / 0.01 / 0.04 / 0.01 / 53.19        13.89 / 0.01 / 0.15 / 0.00 / 100.00       
    void Eigen::internal::EigenMetaKernel<Eigen::...  803     - / - / - / - / -                         6.89 / 0.01 / 0.15 / 0.00 / 49.65         
    void Eigen::internal::EigenMetaKernel<Eigen::...  396     - / - / - / - / -                         2.01 / 0.01 / 0.01 / 0.00 / 14.47         
    void paddle::operators::TilingSwapDim1And2<fl...  528     - / - / - / - / -                         3.72 / 0.01 / 0.02 / 0.01 / 26.75         
    void Eigen::internal::EigenMetaKernel<Eigen::...  11      - / - / - / - / -                         1.27 / 0.12 / 0.12 / 0.11 / 9.12          
layer_norm                                            1023    40.61 / 0.04 / 0.15 / 0.03 / 1.65         13.43 / 0.01 / 0.02 / 0.01 / 1.57         
  infer_shape                                         1023    2.06 / 0.00 / 0.02 / 0.00 / 5.07          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1023    13.93 / 0.01 / 0.04 / 0.01 / 34.31        13.43 / 0.01 / 0.02 / 0.01 / 100.00       
    void paddle::operators::LayerNormForward<floa...  1023    - / - / - / - / -                         13.43 / 0.01 / 0.02 / 0.01 / 100.00       
  grad_node_creation                                  1023    8.88 / 0.01 / 0.10 / 0.01 / 21.87         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
relu_grad grad_node                                   88      1.33 / 0.02 / 0.02 / 0.01 / 0.05          10.89 / 0.12 / 0.81 / 0.01 / 1.27         
  infer_shape                                         88      0.04 / 0.00 / 0.00 / 0.00 / 3.02          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             88      0.62 / 0.01 / 0.01 / 0.00 / 46.28         10.89 / 0.12 / 0.81 / 0.01 / 100.00       
    void phi::funcs::VectorizedElementwiseKernel<...  88      - / - / - / - / -                         10.89 / 0.12 / 0.81 / 0.01 / 100.00       
where_grad grad_node                                  814     16.71 / 0.02 / 0.05 / 0.01 / 0.68         10.79 / 0.01 / 0.04 / 0.00 / 1.26         
  infer_shape                                         814     0.74 / 0.00 / 0.01 / 0.00 / 4.40          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             814     6.03 / 0.01 / 0.03 / 0.01 / 36.11         10.79 / 0.01 / 0.04 / 0.00 / 100.00       
    void phi::WhereGradCUDAKernel<float>(int, flo...  814     - / - / - / - / -                         10.79 / 0.01 / 0.04 / 0.00 / 100.00       
elementwise_add                                       1320    40.76 / 0.03 / 0.14 / 0.03 / 1.65         9.59 / 0.01 / 0.03 / 0.00 / 1.12          
  infer_shape                                         1320    1.72 / 0.00 / 0.03 / 0.00 / 4.22          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1320    15.72 / 0.01 / 0.04 / 0.01 / 38.57        9.59 / 0.01 / 0.03 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<fl...  1188    - / - / - / - / -                         8.94 / 0.01 / 0.03 / 0.00 / 93.20         
    void phi::funcs::VectorizedBroadcastKernel<ph...  132     - / - / - / - / -                         0.65 / 0.00 / 0.01 / 0.00 / 6.80          
  grad_node_creation                                  1320    7.92 / 0.01 / 0.11 / 0.00 / 19.42         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
scale                                                 2531    50.09 / 0.02 / 0.22 / 0.01 / 2.03         9.27 / 0.00 / 0.02 / 0.00 / 1.08          
  infer_shape                                         2531    5.54 / 0.00 / 0.02 / 0.00 / 11.07         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             2531    22.28 / 0.01 / 0.04 / 0.01 / 44.48        9.26 / 0.00 / 0.02 / 0.00 / 99.89         
    void phi::funcs::VectorizedElementwiseKernel<...  2256    - / - / - / - / -                         8.38 / 0.00 / 0.02 / 0.00 / 90.52         
    void phi::funcs::VectorizedElementwiseKernel<...  264     - / - / - / - / -                         0.85 / 0.00 / 0.00 / 0.00 / 9.20          
    void phi::funcs::VectorizedElementwiseKernel<...  11      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 0.28          
  grad_node_creation                                  2531    3.66 / 0.00 / 0.09 / 0.00 / 7.30          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  GpuMemcpySync:CUDAPinned->GPU                       11      0.16 / 0.01 / 0.02 / 0.01 / 0.32          0.01 / 0.00 / 0.00 / 0.00 / 0.11          
    MEMCPY_HtoD                                       11      - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
elementwise_mul                                       2069    47.74 / 0.02 / 0.06 / 0.02 / 1.94         9.04 / 0.00 / 0.03 / 0.00 / 1.06          
  infer_shape                                         2069    2.78 / 0.00 / 0.02 / 0.00 / 5.83          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             2069    24.36 / 0.01 / 0.04 / 0.01 / 51.02        9.04 / 0.00 / 0.03 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<fl...  2069    - / - / - / - / -                         9.04 / 0.00 / 0.03 / 0.00 / 100.00        
  grad_node_creation                                  2069    1.27 / 0.00 / 0.01 / 0.00 / 2.67          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
squared_l2_norm                                       1860    29.96 / 0.02 / 0.06 / 0.01 / 1.22         7.71 / 0.00 / 0.02 / 0.00 / 0.90          
  infer_shape                                         1860    0.43 / 0.00 / 0.00 / 0.00 / 1.44          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1860    22.54 / 0.01 / 0.04 / 0.01 / 75.23        7.71 / 0.00 / 0.02 / 0.00 / 100.00        
    void cub::DeviceReduceSingleTileKernel<cub::D...  1263    - / - / - / - / -                         3.58 / 0.00 / 0.01 / 0.00 / 46.50         
    void cub::DeviceReduceKernel<cub::DeviceReduc...  597     - / - / - / - / -                         2.66 / 0.00 / 0.01 / 0.00 / 34.52         
    void cub::DeviceReduceSingleTileKernel<cub::D...  597     - / - / - / - / -                         1.46 / 0.00 / 0.01 / 0.00 / 18.98         
  grad_node_creation                                  1860    0.09 / 0.00 / 0.00 / 0.00 / 0.31          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
relu                                                  88      2.56 / 0.03 / 0.05 / 0.02 / 0.10          7.41 / 0.08 / 0.55 / 0.00 / 0.87          
  infer_shape                                         88      0.05 / 0.00 / 0.00 / 0.00 / 1.83          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             88      1.00 / 0.01 / 0.03 / 0.01 / 38.94         7.41 / 0.08 / 0.55 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  88      - / - / - / - / -                         7.41 / 0.08 / 0.55 / 0.00 / 100.00        
  grad_node_creation                                  88      0.51 / 0.01 / 0.03 / 0.00 / 19.73         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
expand_v2                                             957     25.51 / 0.03 / 0.06 / 0.02 / 1.04         7.32 / 0.01 / 0.02 / 0.00 / 0.86          
  infer_shape                                         957     2.91 / 0.00 / 0.01 / 0.00 / 11.41         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             957     11.97 / 0.01 / 0.04 / 0.01 / 46.92        7.32 / 0.01 / 0.02 / 0.00 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  110     - / - / - / - / -                         0.46 / 0.00 / 0.01 / 0.00 / 6.27          
    void Eigen::internal::EigenMetaKernel<Eigen::...  22      - / - / - / - / -                         0.05 / 0.00 / 0.00 / 0.00 / 0.74          
    void Eigen::internal::EigenMetaKernel<Eigen::...  528     - / - / - / - / -                         4.19 / 0.01 / 0.02 / 0.00 / 57.28         
    void Eigen::internal::EigenMetaKernel<Eigen::...  33      - / - / - / - / -                         0.11 / 0.00 / 0.01 / 0.00 / 1.50          
    void Eigen::internal::EigenMetaKernel<Eigen::...  264     - / - / - / - / -                         2.51 / 0.01 / 0.01 / 0.01 / 34.21         
  grad_node_creation                                  957     0.11 / 0.00 / 0.00 / 0.00 / 0.45          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
sum                                                   1866    26.67 / 0.01 / 0.43 / 0.01 / 1.08         7.01 / 0.00 / 0.10 / 0.00 / 0.82          
  infer_shape                                         1866    1.79 / 0.00 / 0.16 / 0.00 / 6.71          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1866    13.79 / 0.01 / 0.11 / 0.01 / 51.70        7.01 / 0.00 / 0.10 / 0.00 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  1860    - / - / - / - / -                         6.69 / 0.00 / 0.03 / 0.00 / 95.40         
    void Eigen::internal::EigenMetaKernel<Eigen::...  6       - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 0.21          
    void phi::SumArrayCUDAKernel<float>(float**, ...  6       - / - / - / - / -                         0.30 / 0.05 / 0.10 / 0.00 / 4.31          
  grad_node_creation                                  1866    0.08 / 0.00 / 0.00 / 0.00 / 0.28          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
concat                                                308     12.31 / 0.04 / 0.13 / 0.03 / 0.50         4.61 / 0.01 / 0.03 / 0.00 / 0.54          
  infer_shape                                         308     1.45 / 0.00 / 0.03 / 0.00 / 11.76         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             308     5.20 / 0.02 / 0.05 / 0.01 / 42.25         4.60 / 0.01 / 0.03 / 0.00 / 99.72         
    void phi::funcs::ConcatKernel_<float>(float c...  264     - / - / - / - / -                         4.40 / 0.02 / 0.03 / 0.01 / 95.57         
    void phi::funcs::ConcatKernel_<int>(int const...  44      - / - / - / - / -                         0.13 / 0.00 / 0.00 / 0.00 / 2.84          
  grad_node_creation                                  308     1.67 / 0.01 / 0.06 / 0.00 / 13.57         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  GpuMemcpySync:CUDAPinned->GPU                       11      0.33 / 0.03 / 0.05 / 0.02 / 2.66          0.01 / 0.00 / 0.00 / 0.00 / 0.28          
    MEMCPY_HtoD                                       11      - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
check_finite_and_unscale                              3       1.58 / 0.53 / 0.62 / 0.47 / 0.06          4.56 / 1.52 / 1.52 / 1.52 / 0.53          
  infer_shape                                         3       0.66 / 0.22 / 0.24 / 0.20 / 41.56         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             3       0.46 / 0.15 / 0.17 / 0.14 / 29.31         4.56 / 1.52 / 1.52 / 1.52 / 100.00        
    void paddle::operators::InverseAndMemset<floa...  3       - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 0.16          
    void paddle::operators::CheckFiniteAndUnscale...  3       - / - / - / - / -                         4.54 / 1.51 / 1.52 / 1.51 / 99.68         
  grad_node_creation                                  3       0.01 / 0.00 / 0.00 / 0.00 / 0.52          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
where                                                 660     20.27 / 0.03 / 0.96 / 0.02 / 0.82         3.61 / 0.01 / 0.03 / 0.00 / 0.42          
  infer_shape                                         660     1.57 / 0.00 / 0.00 / 0.00 / 7.73          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             660     6.50 / 0.01 / 0.04 / 0.01 / 32.10         3.61 / 0.01 / 0.03 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  550     - / - / - / - / -                         3.35 / 0.01 / 0.03 / 0.00 / 92.81         
    void phi::funcs::VectorizedElementwiseKernel<...  110     - / - / - / - / -                         0.26 / 0.00 / 0.00 / 0.00 / 7.19          
  grad_node_creation                                  660     4.58 / 0.01 / 0.93 / 0.00 / 22.58         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
slice                                                 1221    37.82 / 0.03 / 0.08 / 0.02 / 1.54         3.52 / 0.00 / 0.00 / 0.00 / 0.41          
  infer_shape                                         1221    2.44 / 0.00 / 0.03 / 0.00 / 6.46          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1221    21.01 / 0.02 / 0.06 / 0.01 / 55.54        3.52 / 0.00 / 0.00 / 0.00 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  165     - / - / - / - / -                         0.60 / 0.00 / 0.00 / 0.00 / 17.17         
    void Eigen::internal::EigenMetaKernel<Eigen::...  352     - / - / - / - / -                         0.85 / 0.00 / 0.00 / 0.00 / 24.30         
    void Eigen::internal::EigenMetaKernel<Eigen::...  352     - / - / - / - / -                         0.86 / 0.00 / 0.00 / 0.00 / 24.34         
    void Eigen::internal::EigenMetaKernel<Eigen::...  352     - / - / - / - / -                         0.86 / 0.00 / 0.00 / 0.00 / 24.53         
  grad_node_creation                                  1221    0.95 / 0.00 / 0.01 / 0.00 / 2.51          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
concat grad_node                                      132     3.62 / 0.03 / 0.06 / 0.02 / 0.15          3.26 / 0.02 / 0.03 / 0.02 / 0.38          
  infer_shape                                         132     0.74 / 0.01 / 0.03 / 0.00 / 20.50         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     1.73 / 0.01 / 0.03 / 0.01 / 47.72         3.26 / 0.02 / 0.03 / 0.02 / 100.00        
    void phi::funcs::ConcatKernel_<float>(float c...  132     - / - / - / - / -                         3.26 / 0.02 / 0.03 / 0.02 / 100.00        
depthwise_conv2d                                      132     5.96 / 0.05 / 0.07 / 0.04 / 0.24          3.13 / 0.02 / 0.03 / 0.02 / 0.37          
  infer_shape                                         132     0.57 / 0.00 / 0.01 / 0.00 / 9.50          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     2.36 / 0.02 / 0.03 / 0.02 / 39.55         3.13 / 0.02 / 0.03 / 0.02 / 100.00        
    void paddle::operators::math::KernelDepthwise...  132     - / - / - / - / -                         3.13 / 0.02 / 0.03 / 0.02 / 100.00        
  grad_node_creation                                  132     0.86 / 0.01 / 0.01 / 0.01 / 14.48         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
warpctc_grad grad_node                                11      0.39 / 0.04 / 0.05 / 0.03 / 0.02          3.12 / 0.28 / 0.30 / 0.26 / 0.36          
  infer_shape                                         11      0.01 / 0.00 / 0.00 / 0.00 / 2.90          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      0.23 / 0.02 / 0.02 / 0.02 / 59.43         3.12 / 0.28 / 0.30 / 0.26 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  11      - / - / - / - / -                         1.44 / 0.13 / 0.14 / 0.12 / 46.03         
    void Eigen::internal::EigenMetaKernel<Eigen::...  11      - / - / - / - / -                         1.68 / 0.15 / 0.16 / 0.14 / 53.97         
split                                                 132     5.24 / 0.04 / 0.06 / 0.04 / 0.21          3.06 / 0.02 / 0.03 / 0.02 / 0.36          
  infer_shape                                         132     0.36 / 0.00 / 0.00 / 0.00 / 6.89          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     2.13 / 0.02 / 0.04 / 0.01 / 40.70         3.06 / 0.02 / 0.03 / 0.02 / 100.00        
    void phi::funcs::SplitKernel_<float>(float co...  132     - / - / - / - / -                         3.06 / 0.02 / 0.03 / 0.02 / 100.00        
  grad_node_creation                                  132     1.03 / 0.01 / 0.03 / 0.01 / 19.67         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
fill_any_like                                         946     19.60 / 0.02 / 0.05 / 0.02 / 0.80         3.04 / 0.00 / 0.01 / 0.00 / 0.36          
  infer_shape                                         946     0.53 / 0.00 / 0.00 / 0.00 / 2.72          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             946     9.65 / 0.01 / 0.04 / 0.01 / 49.26         3.04 / 0.00 / 0.01 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  572     - / - / - / - / -                         2.14 / 0.00 / 0.01 / 0.00 / 70.42         
    void phi::funcs::VectorizedElementwiseKernel<...  110     - / - / - / - / -                         0.23 / 0.00 / 0.00 / 0.00 / 7.58          
    void phi::funcs::VectorizedElementwiseKernel<...  264     - / - / - / - / -                         0.67 / 0.00 / 0.00 / 0.00 / 22.00         
  grad_node_creation                                  946     0.29 / 0.00 / 0.00 / 0.00 / 1.50          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
elementwise_mul_grad grad_node                        176     5.38 / 0.03 / 0.12 / 0.02 / 0.22          2.83 / 0.02 / 0.03 / 0.00 / 0.33          
  infer_shape                                         176     0.14 / 0.00 / 0.01 / 0.00 / 2.66          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             176     3.04 / 0.02 / 0.08 / 0.01 / 56.47         2.83 / 0.02 / 0.03 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<fl...  44      - / - / - / - / -                         0.17 / 0.00 / 0.01 / 0.00 / 5.99          
    void phi::funcs::VectorizedBroadcastKernel<fl...  132     - / - / - / - / -                         2.66 / 0.02 / 0.03 / 0.02 / 94.01         
scale grad_node                                       616     10.22 / 0.02 / 0.04 / 0.01 / 0.41         2.27 / 0.00 / 0.01 / 0.00 / 0.27          
  infer_shape                                         616     1.58 / 0.00 / 0.03 / 0.00 / 15.47         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             616     4.79 / 0.01 / 0.02 / 0.00 / 46.91         2.27 / 0.00 / 0.01 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  352     - / - / - / - / -                         1.41 / 0.00 / 0.01 / 0.00 / 62.01         
    void phi::funcs::VectorizedElementwiseKernel<...  264     - / - / - / - / -                         0.86 / 0.00 / 0.01 / 0.00 / 37.99         
pad3d_grad grad_node                                  132     3.38 / 0.03 / 0.04 / 0.02 / 0.14          2.18 / 0.02 / 0.02 / 0.01 / 0.26          
  infer_shape                                         132     0.10 / 0.00 / 0.00 / 0.00 / 2.98          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     2.26 / 0.02 / 0.03 / 0.01 / 66.83         2.18 / 0.02 / 0.02 / 0.01 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  132     - / - / - / - / -                         0.54 / 0.00 / 0.01 / 0.00 / 24.93         
    void phi::Pad3DGradConstNCDHW<float>(int, flo...  132     - / - / - / - / -                         1.64 / 0.01 / 0.01 / 0.01 / 75.07         
elementwise_sub                                       11      2.71 / 0.25 / 0.27 / 0.23 / 0.11          2.12 / 0.19 / 0.21 / 0.18 / 0.25          
  GpuMemcpySync:CUDAPinned->GPU                       11      2.24 / 0.20 / 0.22 / 0.19 / 82.80         2.04 / 0.19 / 0.20 / 0.17 / 96.36         
    MEMCPY_HtoD                                       11      - / - / - / - / -                         2.04 / 0.19 / 0.20 / 0.17 / 100.00        
  infer_shape                                         11      0.02 / 0.00 / 0.00 / 0.00 / 0.71          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      0.19 / 0.02 / 0.02 / 0.02 / 7.00          0.08 / 0.01 / 0.01 / 0.01 / 3.64          
    void phi::funcs::VectorizedBroadcastKernel<fl...  11      - / - / - / - / -                         0.08 / 0.01 / 0.01 / 0.01 / 100.00        
  grad_node_creation                                  11      0.00 / 0.00 / 0.00 / 0.00 / 0.05          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
pad3d                                                 132     4.19 / 0.03 / 0.07 / 0.03 / 0.17          2.05 / 0.02 / 0.02 / 0.01 / 0.24          
  infer_shape                                         132     0.37 / 0.00 / 0.00 / 0.00 / 8.78          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     1.78 / 0.01 / 0.02 / 0.01 / 42.37         2.05 / 0.02 / 0.02 / 0.01 / 100.00        
    void phi::Pad3DConstNCDHW<float>(int, float c...  132     - / - / - / - / -                         2.05 / 0.02 / 0.02 / 0.01 / 100.00        
  grad_node_creation                                  132     0.85 / 0.01 / 0.02 / 0.00 / 20.33         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
flip                                                  352     13.52 / 0.04 / 0.07 / 0.03 / 0.55         1.98 / 0.01 / 0.02 / 0.01 / 0.23          
  infer_shape                                         352     0.93 / 0.00 / 0.02 / 0.00 / 6.87          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             352     9.08 / 0.03 / 0.05 / 0.02 / 67.14         1.98 / 0.01 / 0.02 / 0.01 / 100.00        
    void phi::flip_cuda_kernel<int>(int, int cons...  352     - / - / - / - / -                         1.11 / 0.00 / 0.00 / 0.00 / 56.19         
  grad_node_creation                                  352     0.04 / 0.00 / 0.00 / 0.00 / 0.28          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
unsqueeze2_grad grad_node                             1188    14.68 / 0.01 / 0.04 / 0.01 / 0.60         1.56 / 0.00 / 0.01 / 0.00 / 0.18          
  infer_shape                                         1188    0.75 / 0.00 / 0.02 / 0.00 / 5.13          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1188    1.36 / 0.00 / 0.02 / 0.00 / 9.24          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  void axpy_kernel_val<float, float>(cublasAxpyPa...  480     - / - / - / - / -                         1.56 / 0.00 / 0.01 / 0.00 / 100.00        
softmax_grad grad_node                                264     5.32 / 0.02 / 0.05 / 0.01 / 0.22          1.46 / 0.01 / 0.02 / 0.00 / 0.17          
  infer_shape                                         264     0.60 / 0.00 / 0.00 / 0.00 / 11.27         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             264     2.30 / 0.01 / 0.04 / 0.01 / 43.18         1.46 / 0.01 / 0.02 / 0.00 / 100.00        
    void phi::WarpSoftmaxBackward<float, int2, fl...  54      - / - / - / - / -                         0.33 / 0.01 / 0.01 / 0.00 / 22.43         
    void phi::WarpSoftmaxBackward<float, int2, fl...  60      - / - / - / - / -                         0.18 / 0.00 / 0.00 / 0.00 / 12.01         
    void phi::WarpSoftmaxBackward<float, float, f...  108     - / - / - / - / -                         0.72 / 0.01 / 0.02 / 0.00 / 49.38         
    void phi::WarpSoftmaxBackward<float, int4, fl...  36      - / - / - / - / -                         0.22 / 0.01 / 0.01 / 0.00 / 15.00         
    void phi::WarpSoftmaxBackward<float, float, f...  6       - / - / - / - / -                         0.02 / 0.00 / 0.00 / 0.00 / 1.18          
sigmoid_grad grad_node                                132     2.28 / 0.02 / 0.04 / 0.01 / 0.09          1.42 / 0.01 / 0.01 / 0.01 / 0.17          
  infer_shape                                         132     0.06 / 0.00 / 0.00 / 0.00 / 2.79          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     1.10 / 0.01 / 0.01 / 0.01 / 48.25         1.42 / 0.01 / 0.01 / 0.01 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  132     - / - / - / - / -                         1.42 / 0.01 / 0.01 / 0.01 / 100.00        
softmax                                               264     8.15 / 0.03 / 0.06 / 0.03 / 0.33          1.29 / 0.00 / 0.01 / 0.00 / 0.15          
  infer_shape                                         264     0.64 / 0.00 / 0.02 / 0.00 / 7.90          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             264     2.87 / 0.01 / 0.03 / 0.01 / 35.29         1.29 / 0.00 / 0.01 / 0.00 / 100.00        
    void phi::WarpSoftmaxForward<float, int2, flo...  54      - / - / - / - / -                         0.29 / 0.01 / 0.01 / 0.00 / 22.63         
    void phi::WarpSoftmaxForward<float, int2, flo...  60      - / - / - / - / -                         0.17 / 0.00 / 0.00 / 0.00 / 13.31         
    void phi::WarpSoftmaxForward<float, float, fl...  108     - / - / - / - / -                         0.61 / 0.01 / 0.01 / 0.00 / 47.15         
    void phi::WarpSoftmaxForward<float, int4, flo...  36      - / - / - / - / -                         0.20 / 0.01 / 0.01 / 0.00 / 15.63         
    void phi::WarpSoftmaxForward<float, float, fl...  6       - / - / - / - / -                         0.02 / 0.00 / 0.00 / 0.00 / 1.27          
  grad_node_creation                                  264     1.17 / 0.00 / 0.01 / 0.00 / 14.39         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
equal                                                 341     10.65 / 0.03 / 0.16 / 0.02 / 0.43         1.21 / 0.00 / 0.02 / 0.00 / 0.14          
  infer_shape                                         341     1.14 / 0.00 / 0.02 / 0.00 / 10.74         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             341     5.17 / 0.02 / 0.04 / 0.01 / 48.58         1.21 / 0.00 / 0.02 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<lo...  11      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 2.44          
    void phi::funcs::VectorizedBroadcastKernel<in...  66      - / - / - / - / -                         0.21 / 0.00 / 0.02 / 0.00 / 17.44         
    void phi::funcs::VectorizedBroadcastKernel<bo...  264     - / - / - / - / -                         0.97 / 0.00 / 0.00 / 0.00 / 80.12         
  grad_node_creation                                  341     0.05 / 0.00 / 0.00 / 0.00 / 0.48          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
log_softmax_grad grad_node                            22      0.50 / 0.02 / 0.04 / 0.01 / 0.02          1.05 / 0.05 / 0.05 / 0.05 / 0.12          
  infer_shape                                         22      0.02 / 0.00 / 0.00 / 0.00 / 4.02          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.32 / 0.01 / 0.03 / 0.01 / 63.97         1.05 / 0.05 / 0.05 / 0.05 / 100.00        
    void cudnn::softmax_bw_kernel<2, float, float...  22      - / - / - / - / -                         1.05 / 0.05 / 0.05 / 0.05 / 100.00        
sigmoid                                               132     3.60 / 0.03 / 0.05 / 0.02 / 0.15          0.93 / 0.01 / 0.01 / 0.01 / 0.11          
  infer_shape                                         132     0.07 / 0.00 / 0.00 / 0.00 / 1.82          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             132     1.45 / 0.01 / 0.01 / 0.01 / 40.14         0.93 / 0.01 / 0.01 / 0.01 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  132     - / - / - / - / -                         0.93 / 0.01 / 0.01 / 0.01 / 100.00        
  grad_node_creation                                  132     0.68 / 0.01 / 0.01 / 0.00 / 18.92         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
fill_constant                                         677     14.51 / 0.02 / 0.05 / 0.01 / 0.59         0.92 / 0.00 / 0.00 / 0.00 / 0.11          
  infer_shape                                         677     0.55 / 0.00 / 0.00 / 0.00 / 3.78          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             677     6.45 / 0.01 / 0.03 / 0.00 / 44.44         0.92 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  132     - / - / - / - / -                         0.27 / 0.00 / 0.00 / 0.00 / 29.44         
    void phi::funcs::VectorizedElementwiseKernel<...  297     - / - / - / - / -                         0.62 / 0.00 / 0.00 / 0.00 / 66.70         
    void phi::funcs::VectorizedElementwiseKernel<...  17      - / - / - / - / -                         0.04 / 0.00 / 0.00 / 0.00 / 3.86          
  grad_node_creation                                  677     0.06 / 0.00 / 0.00 / 0.00 / 0.42          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
reduce_sum                                            110     5.28 / 0.05 / 0.08 / 0.03 / 0.21          0.76 / 0.01 / 0.01 / 0.00 / 0.09          
  infer_shape                                         110     0.44 / 0.00 / 0.01 / 0.00 / 8.31          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             110     3.41 / 0.03 / 0.07 / 0.02 / 64.53         0.76 / 0.01 / 0.01 / 0.00 / 100.00        
    void cub::DeviceReduceSingleTileKernel<cub::D...  11      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 4.06          
    void phi::funcs::VectorizedElementwiseKernel<...  44      - / - / - / - / -                         0.11 / 0.00 / 0.00 / 0.00 / 13.96         
    void cub::DeviceReduceSingleTileKernel<cub::D...  44      - / - / - / - / -                         0.12 / 0.00 / 0.00 / 0.00 / 15.26         
    void cub::DeviceReduceKernel<cub::DeviceReduc...  22      - / - / - / - / -                         0.21 / 0.01 / 0.01 / 0.01 / 28.16         
    void cub::DeviceReduceSingleTileKernel<cub::D...  22      - / - / - / - / -                         0.07 / 0.00 / 0.00 / 0.00 / 9.06          
    void phi::funcs::VectorizedElementwiseKernel<...  33      - / - / - / - / -                         0.09 / 0.00 / 0.00 / 0.00 / 11.94         
    void phi::funcs::ReduceHigherDimKernel<long, ...  22      - / - / - / - / -                         0.10 / 0.00 / 0.00 / 0.00 / 13.27         
    void phi::funcs::ReduceAnyKernel<long, long, ...  11      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 4.28          
  grad_node_creation                                  110     0.26 / 0.00 / 0.01 / 0.00 / 4.90          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
kldiv_loss                                            22      0.74 / 0.03 / 0.05 / 0.03 / 0.03          0.69 / 0.03 / 0.03 / 0.03 / 0.08          
  infer_shape                                         22      0.07 / 0.00 / 0.00 / 0.00 / 9.09          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.24 / 0.01 / 0.01 / 0.01 / 32.61         0.69 / 0.03 / 0.03 / 0.03 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  22      - / - / - / - / -                         0.69 / 0.03 / 0.03 / 0.03 / 100.00        
  grad_node_creation                                  22      0.16 / 0.01 / 0.02 / 0.01 / 21.96         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
lookup_table_v2_grad grad_node                        22      0.78 / 0.04 / 0.06 / 0.02 / 0.03          0.65 / 0.03 / 0.04 / 0.01 / 0.08          
  infer_shape                                         22      0.01 / 0.00 / 0.00 / 0.00 / 1.61          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.36 / 0.02 / 0.03 / 0.01 / 46.96         0.32 / 0.01 / 0.02 / 0.01 / 49.28         
    MEMSET                                            22      - / - / - / - / -                         0.18 / 0.01 / 0.01 / 0.01 / 57.26         
    void phi::EmbeddingGrad<float, int>(float*, f...  22      - / - / - / - / -                         0.14 / 0.01 / 0.01 / 0.01 / 42.74         
  void axpy_kernel_val<float, float>(cublasAxpyPa...  16      - / - / - / - / -                         0.33 / 0.02 / 0.02 / 0.02 / 50.72         
kldiv_loss_grad grad_node                             22      0.35 / 0.02 / 0.02 / 0.01 / 0.01          0.61 / 0.03 / 0.03 / 0.02 / 0.07          
  infer_shape                                         22      0.02 / 0.00 / 0.00 / 0.00 / 4.57          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.16 / 0.01 / 0.01 / 0.01 / 45.80         0.61 / 0.03 / 0.03 / 0.02 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  22      - / - / - / - / -                         0.61 / 0.03 / 0.03 / 0.02 / 100.00        
log_softmax                                           22      0.80 / 0.04 / 0.06 / 0.03 / 0.03          0.42 / 0.02 / 0.02 / 0.02 / 0.05          
  infer_shape                                         22      0.06 / 0.00 / 0.00 / 0.00 / 7.23          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.44 / 0.02 / 0.04 / 0.01 / 54.53         0.42 / 0.02 / 0.02 / 0.02 / 100.00        
    void cudnn::ops::softmax_fw_kernel_resident<2...  22      - / - / - / - / -                         0.42 / 0.02 / 0.02 / 0.02 / 100.00        
  grad_node_creation                                  22      0.09 / 0.00 / 0.01 / 0.00 / 11.53         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
one_hot_v2                                            22      0.74 / 0.03 / 0.05 / 0.03 / 0.03          0.32 / 0.01 / 0.02 / 0.01 / 0.04          
  infer_shape                                         22      0.08 / 0.00 / 0.00 / 0.00 / 10.29         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.43 / 0.02 / 0.03 / 0.02 / 57.69         0.32 / 0.01 / 0.02 / 0.01 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  22      - / - / - / - / -                         0.26 / 0.01 / 0.01 / 0.01 / 81.50         
    void phi::FillOutputKernel<int, float>(int co...  22      - / - / - / - / -                         0.06 / 0.00 / 0.00 / 0.00 / 18.50         
  grad_node_creation                                  22      0.00 / 0.00 / 0.00 / 0.00 / 0.27          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
masked_select                                         22      1.26 / 0.06 / 0.11 / 0.04 / 0.05          0.32 / 0.01 / 0.02 / 0.01 / 0.04          
  infer_shape                                         22      0.04 / 0.00 / 0.00 / 0.00 / 3.14          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.91 / 0.04 / 0.08 / 0.03 / 72.28         0.32 / 0.01 / 0.02 / 0.01 / 100.00        
    void phi::funcs::GetBlockCountKernel<bool, lo...  22      - / - / - / - / -                         0.06 / 0.00 / 0.00 / 0.00 / 18.43         
    void phi::funcs::CumsumOneBlock<long, long, p...  22      - / - / - / - / -                         0.10 / 0.00 / 0.00 / 0.00 / 30.95         
    void phi::funcs::SelectKernel<bool, int, long...  11      - / - / - / - / -                         0.06 / 0.01 / 0.01 / 0.01 / 18.79         
    void phi::funcs::SelectKernel<bool, long, lon...  11      - / - / - / - / -                         0.07 / 0.01 / 0.01 / 0.01 / 21.44         
  grad_node_creation                                  22      0.08 / 0.00 / 0.02 / 0.00 / 6.41          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
reduce_sum_grad grad_node                             33      0.63 / 0.02 / 0.03 / 0.01 / 0.03          0.30 / 0.01 / 0.02 / 0.00 / 0.03          
  infer_shape                                         33      0.04 / 0.00 / 0.00 / 0.00 / 6.22          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             33      0.37 / 0.01 / 0.02 / 0.01 / 58.58         0.30 / 0.01 / 0.02 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<fl...  33      - / - / - / - / -                         0.30 / 0.01 / 0.02 / 0.00 / 100.00        
arg_max                                               11      0.32 / 0.03 / 0.03 / 0.03 / 0.01          0.28 / 0.03 / 0.03 / 0.03 / 0.03          
  infer_shape                                         11      0.05 / 0.00 / 0.00 / 0.00 / 14.10         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      0.14 / 0.01 / 0.01 / 0.01 / 44.96         0.28 / 0.03 / 0.03 / 0.03 / 100.00        
    void phi::ArgCUDAKernel<float, long, cub::Arg...  11      - / - / - / - / -                         0.28 / 0.03 / 0.03 / 0.03 / 100.00        
  grad_node_creation                                  11      0.00 / 0.00 / 0.00 / 0.00 / 1.12          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
lookup_table_v2                                       22      0.87 / 0.04 / 0.07 / 0.03 / 0.04          0.12 / 0.01 / 0.01 / 0.00 / 0.01          
  infer_shape                                         22      0.03 / 0.00 / 0.00 / 0.00 / 3.23          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.30 / 0.01 / 0.04 / 0.01 / 34.47         0.12 / 0.01 / 0.01 / 0.00 / 100.00        
    void phi::EmbeddingFW<float, int, false>(floa...  22      - / - / - / - / -                         0.12 / 0.01 / 0.01 / 0.00 / 100.00        
  grad_node_creation                                  22      0.23 / 0.01 / 0.02 / 0.01 / 26.42         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
reduce_max                                            33      32.46 / 0.98 / 4.90 / 0.04 / 1.32         0.10 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         33      0.17 / 0.01 / 0.01 / 0.00 / 0.53          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             33      1.03 / 0.03 / 0.05 / 0.02 / 3.17          0.09 / 0.00 / 0.00 / 0.00 / 88.40         
    void cub::DeviceReduceSingleTileKernel<cub::D...  33      - / - / - / - / -                         0.09 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  33      0.01 / 0.00 / 0.00 / 0.00 / 0.02          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  GpuMemcpySync:CUDAPinned->GPU                       11      30.52 / 2.77 / 4.82 / 0.03 / 94.03        0.01 / 0.00 / 0.00 / 0.00 / 11.60         
    MEMCPY_HtoD                                       11      - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
greater_equal                                         33      0.99 / 0.03 / 0.04 / 0.03 / 0.04          0.09 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         33      0.09 / 0.00 / 0.00 / 0.00 / 8.96          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             33      0.52 / 0.02 / 0.02 / 0.01 / 52.45         0.09 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<lo...  33      - / - / - / - / -                         0.09 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  33      0.00 / 0.00 / 0.00 / 0.00 / 0.32          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
logical_not                                           33      0.73 / 0.02 / 0.03 / 0.02 / 0.03          0.09 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         33      0.03 / 0.00 / 0.00 / 0.00 / 3.83          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             33      0.39 / 0.01 / 0.01 / 0.01 / 53.42         0.09 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<bo...  33      - / - / - / - / -                         0.09 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  33      0.00 / 0.00 / 0.00 / 0.00 / 0.29          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
bitwise_and                                           22      0.56 / 0.03 / 0.04 / 0.02 / 0.02          0.09 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         22      0.03 / 0.00 / 0.00 / 0.00 / 5.87          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.29 / 0.01 / 0.02 / 0.01 / 52.23         0.09 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<bo...  22      - / - / - / - / -                         0.09 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  22      0.00 / 0.00 / 0.00 / 0.00 / 0.33          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
strided_slice                                         22      0.66 / 0.03 / 0.04 / 0.02 / 0.03          0.08 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         22      0.10 / 0.00 / 0.01 / 0.00 / 15.30         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.28 / 0.01 / 0.02 / 0.01 / 41.90         0.08 / 0.00 / 0.00 / 0.00 / 100.00        
    void Eigen::internal::EigenMetaKernel<Eigen::...  22      - / - / - / - / -                         0.08 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  22      0.00 / 0.00 / 0.00 / 0.00 / 0.29          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
range                                                 33      1.10 / 0.03 / 0.07 / 0.03 / 0.04          0.08 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         33      0.09 / 0.00 / 0.00 / 0.00 / 8.61          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             33      0.49 / 0.01 / 0.02 / 0.01 / 45.00         0.08 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::Range<long>(long, long, long, long*)    33      - / - / - / - / -                         0.08 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  33      0.00 / 0.00 / 0.00 / 0.00 / 0.40          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
tril_triu                                             22      0.50 / 0.02 / 0.03 / 0.02 / 0.02          0.05 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         22      0.06 / 0.00 / 0.00 / 0.00 / 12.90         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             22      0.22 / 0.01 / 0.01 / 0.01 / 43.52         0.05 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::ForRangeElemwiseOpGridIsOne<...  22      - / - / - / - / -                         0.05 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  22      0.00 / 0.00 / 0.00 / 0.00 / 0.38          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
logical_and                                           11      0.30 / 0.03 / 0.03 / 0.03 / 0.01          0.05 / 0.00 / 0.00 / 0.00 / 0.01          
  infer_shape                                         11      0.02 / 0.00 / 0.00 / 0.00 / 5.19          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      0.16 / 0.01 / 0.02 / 0.01 / 52.68         0.05 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<bo...  11      - / - / - / - / -                         0.05 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  11      0.00 / 0.00 / 0.00 / 0.00 / 0.34          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
not_equal                                             11      0.32 / 0.03 / 0.03 / 0.03 / 0.01          0.04 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         11      0.03 / 0.00 / 0.00 / 0.00 / 10.61         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      0.15 / 0.01 / 0.01 / 0.01 / 46.05         0.04 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<in...  11      - / - / - / - / -                         0.04 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  11      0.00 / 0.00 / 0.00 / 0.00 / 0.62          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
bitwise_not                                           11      0.23 / 0.02 / 0.02 / 0.02 / 0.01          0.03 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         11      0.01 / 0.00 / 0.00 / 0.00 / 3.65          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      0.11 / 0.01 / 0.01 / 0.01 / 47.46         0.03 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  11      - / - / - / - / -                         0.03 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  11      0.00 / 0.00 / 0.00 / 0.00 / 0.36          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
randint                                               11      12.02 / 1.09 / 1.36 / 0.92 / 0.49         0.01 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         11      0.02 / 0.00 / 0.00 / 0.00 / 0.13          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      11.88 / 1.08 / 1.35 / 0.91 / 98.81        0.01 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  11      0.00 / 0.00 / 0.00 / 0.00 / 0.01          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
elementwise_div                                       3       0.08 / 0.03 / 0.03 / 0.03 / 0.00          0.01 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         3       0.00 / 0.00 / 0.00 / 0.00 / 3.32          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             3       0.05 / 0.02 / 0.02 / 0.02 / 59.12         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<fl...  3       - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  3       0.00 / 0.00 / 0.00 / 0.00 / 0.24          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
elementwise_max                                       3       0.09 / 0.03 / 0.03 / 0.03 / 0.00          0.01 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         3       0.00 / 0.00 / 0.00 / 0.00 / 3.93          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             3       0.05 / 0.02 / 0.02 / 0.02 / 55.78         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedBroadcastKernel<fl...  3       - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  3       0.00 / 0.00 / 0.00 / 0.00 / 0.32          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
sqrt                                                  3       0.14 / 0.05 / 0.10 / 0.02 / 0.01          0.01 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         3       0.00 / 0.00 / 0.00 / 0.00 / 1.29          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             3       0.11 / 0.04 / 0.09 / 0.01 / 81.95         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
    void phi::funcs::VectorizedElementwiseKernel<...  3       - / - / - / - / -                         0.01 / 0.00 / 0.00 / 0.00 / 100.00        
  grad_node_creation                                  3       0.00 / 0.00 / 0.00 / 0.00 / 0.11          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
reshape2_grad grad_node                               1221    9.01 / 0.01 / 0.03 / 0.00 / 0.37          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         1221    1.02 / 0.00 / 0.00 / 0.00 / 11.37         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1221    1.14 / 0.00 / 0.01 / 0.00 / 12.70         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
squeeze2_grad grad_node                               539     5.17 / 0.01 / 0.03 / 0.01 / 0.21          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         539     0.45 / 0.00 / 0.02 / 0.00 / 8.66          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             539     0.99 / 0.00 / 0.02 / 0.00 / 19.17         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
squeeze2                                              682     13.75 / 0.02 / 0.05 / 0.02 / 0.56         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         682     2.44 / 0.00 / 0.02 / 0.00 / 17.77         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             682     1.85 / 0.00 / 0.03 / 0.00 / 13.49         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  grad_node_creation                                  682     2.08 / 0.00 / 0.02 / 0.00 / 15.14         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
reshape2                                              1265    23.11 / 0.02 / 0.06 / 0.01 / 0.94         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         1265    2.45 / 0.00 / 0.02 / 0.00 / 10.61         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1265    2.97 / 0.00 / 0.02 / 0.00 / 12.83         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  grad_node_creation                                  1265    4.57 / 0.00 / 0.04 / 0.00 / 19.76         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
unsqueeze2                                            1617    27.60 / 0.02 / 0.05 / 0.01 / 1.12         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         1617    4.99 / 0.00 / 0.02 / 0.00 / 18.06         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             1617    3.17 / 0.00 / 0.03 / 0.00 / 11.47         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  grad_node_creation                                  1617    4.32 / 0.00 / 0.02 / 0.00 / 15.65         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
shape                                                 11      0.20 / 0.02 / 0.02 / 0.02 / 0.01          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  infer_shape                                         11      0.03 / 0.00 / 0.00 / 0.00 / 12.92         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  compute                                             11      0.04 / 0.00 / 0.00 / 0.00 / 18.90         0.00 / 0.00 / 0.00 / 0.00 / 0.00          
  grad_node_creation                                  11      0.00 / 0.00 / 0.00 / 0.00 / 0.35          0.00 / 0.00 / 0.00 / 0.00 / 0.00          
----------------------------------------------------  ------  ----------------------------------------  ----------------------------------------  
yeyupiaoling commented 1 year ago

@Caozhou1995 有没有可能是我的显卡是1080ti的原因呢?这里有个issue说1080ti不支持float16计算:#33740

yeyupiaoling commented 1 year ago

刚才看了下,我测试的事2080ti的显卡,如果是1080ti会报错,信息如下:

For float16, amp only support NVIDIA GPU with Compute Capability 7.0 or higher, current GPU is: NVIDIA GeForce GTX 1080 Ti, with Compute Capability: 6.1.