Closed charleskawczynski closed 6 months ago
On the gpu, we get a lot more information from CUDA's @profile
:
--------------- Benchmarking Wfact... Profile for Wfact:
Profiler ran for 19.44 ms, capturing 34 events.
Host-side activity: calling CUDA APIs took 154.6 µs (0.80% of the trace)
┌────┬──────────┬─────────┬────────────────┐
│ ID │ Start │ Time │ Name │
├────┼──────────┼─────────┼────────────────┤
│ 2 │ 25.6 µs │ 38.7 µs │ cuLaunchKernel │
│ 4 │ 73.2 µs │ 9.9 µs │ cuLaunchKernel │
│ 6 │ 92.7 µs │ 14.1 µs │ cuLaunchKernel │
│ 8 │ 120.1 µs │ 17.7 µs │ cuLaunchKernel │
│ 10 │ 143.3 µs │ 10.5 µs │ cuLaunchKernel │
│ 12 │ 160.5 µs │ 9.3 µs │ cuLaunchKernel │
│ 14 │ 181.4 µs │ 9.9 µs │ cuLaunchKernel │
│ 16 │ 201.4 µs │ 15.1 µs │ cuLaunchKernel │
│ 18 │ 221.9 µs │ 7.9 µs │ cuLaunchKernel │
│ 20 │ 236.1 µs │ 9.4 µs │ cuLaunchKernel │
│ 22 │ 252.3 µs │ 10.8 µs │ cuLaunchKernel │
└────┴──────────┴─────────┴────────────────┘
Device-side activity: GPU was busy for 18.78 ms (96.60% of the trace)
┌────┬───────────┬───────────┬─────────┬────────┬──────┬───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ ID │ Start │ Time │ Threads │ Blocks │ Regs │ Name ⋯
├────┼───────────┼───────────┼─────────┼────────┼──────┼───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ 2 │ 627.01 µs │ 233.54 µs │ 4×4×16 │ 216×2 │ 21 │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float32__N__CUDA_Mem_DeviceBuffer__w ⋯
│ 4 │ 863.01 µs │ 650.92 µs │ 4×4×16 │ 216×2 │ 32 │ _Z11knl_copyto_5VIJFHI13BandMatrixRowILin0ELi1E7AdjointI7Float3210AxisTensorIS2_Li1E5TupleI17ContravariantAxisI6_1__2_EE6SArrayIS4_ILi2EES2_ ⋯
│ 6 │ 1.52 ms │ 1.12 ms │ 256 │ 270 │ 48 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E7AdjointI7Float3210AxisTensorIS3_Li1E5T ⋯
│ 8 │ 2.64 ms │ 1.11 ms │ 256 │ 284 │ 37 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisTensorI7Float32Li1E5TupleI13Covar ⋯
│ 10 │ 3.75 ms │ 2.09 ms │ 256 │ 270 │ 48 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E7AdjointI7Float3210AxisTensorIS3_Li1E5T ⋯
│ 12 │ 5.85 ms │ 851.88 µs │ 256 │ 270 │ 32 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E7AdjointI7Float3210AxisTensorIS3_Li1E5T ⋯
│ 14 │ 6.7 ms │ 1.85 ms │ 256 │ 270 │ 64 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E7AdjointI7Float3210AxisTensorIS3_Li1E5T ⋯
│ 16 │ 8.56 ms │ 3.41 ms │ 256 │ 284 │ 50 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisTensorI7Float32Li1E5TupleI13Covar ⋯
│ 18 │ 11.96 ms │ 1.65 ms │ 256 │ 284 │ 33 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisTensorI7Float32Li1E5TupleI13Covar ⋯
│ 20 │ 13.61 ms │ 2.86 ms │ 256 │ 284 │ 48 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisTensorI7Float32Li2E5TupleI13Covar ⋯
│ 22 │ 16.48 ms │ 2.96 ms │ 256 │ 284 │ 48 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E5TupleI13CovariantAxisI4_3__E17ContravariantAxisI4 ⋯
└────┴───────────┴───────────┴─────────┴────────┴──────┴───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
1 column omitted
--------------- Benchmarking ldiv!... Profile for ldiv!:
Profiler ran for 19.29 ms, capturing 28 events.
Host-side activity: calling CUDA APIs took 113.2 µs (0.59% of the trace)
┌────┬──────────┬─────────┬────────────────┐
│ ID │ Start │ Time │ Name │
├────┼──────────┼─────────┼────────────────┤
│ 2 │ 24.6 µs │ 32.4 µs │ cuLaunchKernel │
│ 4 │ 68.2 µs │ 15.6 µs │ cuLaunchKernel │
│ 6 │ 90.1 µs │ 6.3 µs │ cuLaunchKernel │
│ 8 │ 105.3 µs │ 11.2 µs │ cuLaunchKernel │
│ 10 │ 123.6 µs │ 9.8 µs │ cuLaunchKernel │
│ 12 │ 140.1 µs │ 14.4 µs │ cuLaunchKernel │
│ 14 │ 160.4 µs │ 8.6 µs │ cuLaunchKernel │
│ 16 │ 174.9 µs │ 8.4 µs │ cuLaunchKernel │
│ 18 │ 186.2 µs │ 5.3 µs │ cuLaunchKernel │
└────┴──────────┴─────────┴────────────────┘
Device-side activity: GPU was busy for 18.7 ms (96.97% of the trace)
┌────┬───────────┬───────────┬─────────┬────────┬──────┬───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ ID │ Start │ Time │ Threads │ Blocks │ Regs │ Name ⋯
├────┼───────────┼───────────┼─────────┼────────┼──────┼───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ 2 │ 556.75 µs │ 1.04 ms │ 4×4×16 │ 216×2 │ 32 │ _Z11knl_copyto_5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisTensorI7Float32Li2E5TupleI13CovariantAxisI4_3__E17C ⋯
│ 4 │ 1.6 ms │ 4.99 ms │ 256 │ 284 │ 56 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E5TupleI13CovariantAxisI4_3__E17ContravariantAxisI4 ⋯
│ 6 │ 6.6 ms │ 485.91 µs │ 4×4×16 │ 216×2 │ 27 │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ILi2EES1_Li1ELi2EEELi4E13CuDeviceArrayIS1_Li5ELi1E ⋯
│ 8 │ 7.09 ms │ 2.99 ms │ 256 │ 284 │ 40 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_3__EE6SArrayIS3_ILi1EES2_Li1ELi1EEELi4E8SubArrayIS ⋯
│ 10 │ 10.08 ms │ 1.64 ms │ 256 │ 14 │ 47 │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_Li4E13CuDeviceArrayI7Float32Li5ELi1EEE16PlaceholderSpaceEES0_IS1_IS2 ⋯
│ 12 │ 11.72 ms │ 2.39 ms │ 256 │ 284 │ 40 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_3__EE6SArrayIS3_ILi1EES2_Li1ELi1EEELi4E8SubArrayIS ⋯
│ 14 │ 14.11 ms │ 3.46 ms │ 256 │ 14 │ 43 │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_I10AxisTensorI7Float32Li1ES0_I13CovariantAxisI4_3__EE6SArrayIS0_ILi1 ⋯
│ 16 │ 17.57 ms │ 847.28 µs │ 256 │ 270 │ 40 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li5ELi1EE5TupleI5SliceI5OneToI5Int64EES5_IS6_IS7_EES ⋯
│ 18 │ 18.43 ms │ 858.03 µs │ 256 │ 270 │ 40 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li5ELi1EE5TupleI5SliceI5OneToI5Int64EES5_IS6_IS7_EES ⋯
└────┴───────────┴───────────┴─────────┴────────┴──────┴───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
1 column omitted
--------------- Benchmarking T_imp!... Profile for T_imp!:
Profiler ran for 8.51 ms, capturing 16 events.
Host-side activity: calling CUDA APIs took 78.7 µs (0.92% of the trace)
┌────┬──────────┬─────────┬──────────────────┐
│ ID │ Start │ Time │ Name │
├────┼──────────┼─────────┼──────────────────┤
│ 2 │ 2.7 µs │ 32.1 µs │ cuMemsetD32Async │
│ 4 │ 35.8 µs │ 4.4 µs │ cuMemsetD32Async │
│ 6 │ 66.9 µs │ 20.0 µs │ cuLaunchKernel │
│ 8 │ 94.7 µs │ 10.2 µs │ cuLaunchKernel │
│ 10 │ 114.5 µs │ 11.5 µs │ cuLaunchKernel │
└────┴──────────┴─────────┴──────────────────┘
Device-side activity: GPU was busy for 8.02 ms (94.28% of the trace)
┌────┬───────────┬───────────┬─────────┬────────┬──────┬─────────────┬─────────────┬───────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ ID │ Start │ Time │ Threads │ Blocks │ Regs │ Size │ Throughput │ Name ⋯
├────┼───────────┼───────────┼─────────┼────────┼──────┼─────────────┼─────────────┼───────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ 2 │ 470.45 µs │ 140.03 µs │ - │ - │ - │ 1.055 MiB │ 7.355 GiB/s │ [set device memory] ⋯
│ 4 │ 612.82 µs │ 45.57 µs │ - │ - │ - │ 283.500 KiB │ 5.933 GiB/s │ [set device memory] ⋯
│ 6 │ 660.79 µs │ 2.61 ms │ 256 │ 270 │ 49 │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li5ELi1EE5TupleI5SliceI5 ⋯
│ 8 │ 3.27 ms │ 2.69 ms │ 256 │ 270 │ 56 │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li5ELi1EE5TupleI5SliceI5 ⋯
│ 10 │ 5.97 ms │ 2.53 ms │ 256 │ 284 │ 38 │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_3__EE6SArrayIS3_ILi1EE ⋯
└────┴───────────┴───────────┴─────────┴────────┴──────┴─────────────┴─────────────┴───────────────────────────────────────────────────────────────────────────────────────────────────────────────────
1 column omitted
--------------- Benchmarking T_exp_T_lim!... Profile for T_exp_T_lim!:
Profiler ran for 34.62 ms, capturing 75 events.
Host-side activity: calling CUDA APIs took 9.44 ms (27.27% of the trace)
┌────┬─────────┬──────────┬─────────────────────┐
│ ID │ Start │ Time │ Name │
├────┼─────────┼──────────┼─────────────────────┤
│ 2 │ 3.3 µs │ 989.1 µs │ cuMemsetD32Async │
│ 4 │ 1.01 ms │ 7.9 µs │ cuMemsetD32Async │
│ 6 │ 1.04 ms │ 3.2 µs │ cuMemsetD32Async │
│ 8 │ 1.04 ms │ 2.6 µs │ cuMemsetD32Async │
│ 10 │ 1.09 ms │ 30.1 µs │ cuLaunchKernel │
│ 12 │ 1.13 ms │ 12.8 µs │ cuLaunchKernel │
│ 14 │ 1.15 ms │ 26.3 µs │ cuLaunchKernel │
│ 16 │ 1.18 ms │ 8.7 µs │ cuLaunchKernel │
│ 18 │ 1.19 ms │ 12.1 µs │ cuLaunchKernel │
│ 20 │ 1.21 ms │ 8.21 ms │ cuStreamSynchronize │
│ 22 │ 9.43 ms │ 8.9 µs │ cuLaunchKernel │
│ 24 │ 9.45 ms │ 5.9 µs │ cuLaunchKernel │
│ 26 │ 9.46 ms │ 6.7 µs │ cuLaunchKernel │
│ 28 │ 9.47 ms │ 3.7 µs │ cuLaunchKernel │
│ 30 │ 9.48 ms │ 3.0 µs │ cuLaunchKernel │
│ 32 │ 9.48 ms │ 3.7 µs │ cuLaunchKernel │
│ 34 │ 9.49 ms │ 10.9 µs │ cuLaunchKernel │
│ 36 │ 9.51 ms │ 7.4 µs │ cuLaunchKernel │
│ 38 │ 9.52 ms │ 10.7 µs │ cuLaunchKernel │
│ 40 │ 9.54 ms │ 9.3 µs │ cuLaunchKernel │
│ 42 │ 9.56 ms │ 7.4 µs │ cuLaunchKernel │
│ 44 │ 9.57 ms │ 7.8 µs │ cuLaunchKernel │
│ 46 │ 9.58 ms │ 17.5 µs │ cuLaunchKernel │
│ 48 │ 9.61 ms │ 17.3 µs │ cuLaunchKernel │
│ 50 │ 9.63 ms │ 14.0 µs │ cuLaunchKernel │
└────┴─────────┴──────────┴─────────────────────┘
Device-side activity: GPU was busy for 32.77 ms (94.67% of the trace)
┌────┬──────────┬───────────┬─────────┬────────┬──────┬───────────────────┬─────────────┬─────────────┬────────────────────────────────────────────────────────────────────────────────────────────────
│ ID │ Start │ Time │ Threads │ Blocks │ Regs │ Shared Mem │ Size │ Throughput │ Name ⋯
├────┼──────────┼───────────┼─────────┼────────┼──────┼───────────────────┼─────────────┼─────────────┼────────────────────────────────────────────────────────────────────────────────────────────────
│ 2 │ 1.52 ms │ 135.55 µs │ - │ - │ - │ - │ 1.055 MiB │ 7.598 GiB/s │ [set device memory] ⋯
│ 4 │ 1.66 ms │ 44.99 µs │ - │ - │ - │ - │ 283.500 KiB │ 6.009 GiB/s │ [set device memory] ⋯
│ 6 │ 1.71 ms │ 147.2 µs │ - │ - │ - │ - │ 1.055 MiB │ 6.997 GiB/s │ [set device memory] ⋯
│ 8 │ 1.86 ms │ 44.03 µs │ - │ - │ - │ - │ 283.500 KiB │ 6.140 GiB/s │ [set device memory] ⋯
│ 10 │ 1.9 ms │ 1.08 ms │ 4×4×16 │ 216×2 │ 40 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li5E ⋯
│ 12 │ 2.99 ms │ 1.17 ms │ 4×4×16 │ 216×2 │ 40 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li5E ⋯
│ 14 │ 4.16 ms │ 1.01 ms │ 4×4×16 │ 216×2 │ 39 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1_ ⋯
│ 16 │ 5.18 ms │ 3.34 ms │ 4×4×16 │ 216×2 │ 62 │ 9.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_1_ ⋯
│ 18 │ 8.52 ms │ 898.49 µs │ 4×4×16 │ 216×2 │ 40 │ 3.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placehold ⋯
│ 22 │ 9.65 ms │ 1.94 ms │ 256 │ 203 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES_I ⋯
│ 24 │ 11.6 ms │ 446.56 µs │ 256 │ 153 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_Li1E ⋯
│ 26 │ 12.05 ms │ 1.93 ms │ 256 │ 203 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES ⋯
│ 28 │ 13.98 ms │ 521.25 µs │ 256 │ 203 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES_I ⋯
│ 30 │ 14.5 ms │ 163.13 µs │ 256 │ 51 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_Li1E ⋯
│ 32 │ 14.67 ms │ 503.17 µs │ 256 │ 203 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES ⋯
│ 34 │ 15.17 ms │ 3.37 ms │ 4×4×16 │ 216×2 │ 62 │ 9.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_1_ ⋯
│ 36 │ 18.55 ms │ 552.0 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ILi ⋯
│ 38 │ 19.1 ms │ 1.5 ms │ 256 │ 284 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_3__ ⋯
│ 40 │ 20.6 ms │ 1.23 ms │ 4×4×16 │ 216×2 │ 62 │ 3.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li5E ⋯
│ 42 │ 21.84 ms │ 424.16 µs │ 4×4×16 │ 216×2 │ 31 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI ⋯
│ 44 │ 22.27 ms │ 1.11 ms │ 256 │ 284 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI6 ⋯
│ 46 │ 23.39 ms │ 687.04 µs │ 4×4×16 │ 216×2 │ 32 │ 1024 bytes static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI ⋯
│ 48 │ 24.1 ms │ 7.48 ms │ 256 │ 270 │ 78 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__ ⋯
│ 50 │ 31.58 ms │ 3.03 ms │ 256 │ 284 │ 58 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_3__ ⋯
└────┴──────────┴───────────┴─────────┴────────┴──────┴───────────────────┴─────────────┴─────────────┴────────────────────────────────────────────────────────────────────────────────────────────────
1 column omitted
--------------- Benchmarking lim!... Profile for lim!:
Profiler ran for 2.1 µs, capturing 1 events.
No host-side activity was recorded.
No device-side activity was recorded.
--------------- Benchmarking dss!... Profile for dss!:
Profiler ran for 8.12 ms, capturing 21 events.
Host-side activity: calling CUDA APIs took 1.53 ms (18.78% of the trace)
┌────┬──────────┬─────────┬─────────────────────┐
│ ID │ Start │ Time │ Name │
├────┼──────────┼─────────┼─────────────────────┤
│ 2 │ 10.7 µs │ 99.9 µs │ cuStreamSynchronize │
│ 4 │ 185.6 µs │ 1.28 ms │ cuLaunchKernel │
│ 6 │ 1.52 ms │ 34.4 µs │ cuLaunchKernel │
│ 8 │ 1.6 ms │ 33.6 µs │ cuLaunchKernel │
│ 10 │ 1.67 ms │ 25.8 µs │ cuLaunchKernel │
│ 12 │ 1.71 ms │ 20.8 µs │ cuLaunchKernel │
│ 14 │ 1.76 ms │ 29.3 µs │ cuLaunchKernel │
└────┴──────────┴─────────┴─────────────────────┘
Device-side activity: GPU was busy for 5.92 ms (72.86% of the trace)
┌────┬─────────┬───────────┬─────────┬────────┬──────┬─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ ID │ Start │ Time │ Threads │ Blocks │ Regs │ Name ⋯
├────┼─────────┼───────────┼─────────┼────────┼──────┼─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ 4 │ 2.18 ms │ 2.04 ms │ 256 │ 203 │ 125 │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES_IS0_Li5ELi1EE5TupleI5SliceI5OneToI5Int64EES3_IS4_I ⋯
│ 6 │ 4.22 ms │ 589.25 µs │ 256 │ 204 │ 53 │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_Li1ELi1EES_IS1_IS2_S2_S2_S2_4BoolELi1ELi1EE11Perimete ⋯
│ 8 │ 4.81 ms │ 2.04 ms │ 256 │ 203 │ 117 │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES_IS0_Li5ELi1EE5TupleI5SliceI5OneToI5Int64EES3_IS4 ⋯
│ 10 │ 6.86 ms │ 546.81 µs │ 256 │ 213 │ 125 │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES_IS0_Li5ELi1EE5TupleI5SliceI5OneToI5Int64EES3_IS4_I ⋯
│ 12 │ 7.41 ms │ 169.09 µs │ 256 │ 54 │ 53 │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_Li1ELi1EES_IS1_IS2_S2_S2_S2_4BoolELi1ELi1EE11Perimete ⋯
│ 14 │ 7.58 ms │ 529.57 µs │ 256 │ 213 │ 117 │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES_IS0_Li5ELi1EE5TupleI5SliceI5OneToI5Int64EES3_IS4 ⋯
└────┴─────────┴───────────┴─────────┴────────┴──────┴─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
1 column omitted
--------------- Benchmarking post_explicit!... Profile for post_explicit!:
Profiler ran for 10.21 ms, capturing 34 events.
Host-side activity: calling CUDA APIs took 1.49 ms (14.64% of the trace)
┌────┬─────────┬──────────┬────────────────┐
│ ID │ Start │ Time │ Name │
├────┼─────────┼──────────┼────────────────┤
│ 2 │ 39.5 µs │ 916.5 µs │ cuLaunchKernel │
│ 4 │ 1.02 ms │ 67.7 µs │ cuLaunchKernel │
│ 6 │ 1.11 ms │ 23.2 µs │ cuLaunchKernel │
│ 8 │ 1.15 ms │ 16.6 µs │ cuLaunchKernel │
│ 10 │ 1.19 ms │ 27.8 µs │ cuLaunchKernel │
│ 12 │ 1.23 ms │ 17.9 µs │ cuLaunchKernel │
│ 14 │ 1.27 ms │ 71.0 µs │ cuLaunchKernel │
│ 16 │ 1.37 ms │ 17.5 µs │ cuLaunchKernel │
│ 18 │ 1.39 ms │ 12.6 µs │ cuLaunchKernel │
│ 20 │ 1.42 ms │ 275.4 µs │ cuLaunchKernel │
│ 22 │ 1.72 ms │ 43.4 µs │ cuLaunchKernel │
└────┴─────────┴──────────┴────────────────┘
Device-side activity: GPU was busy for 8.07 ms (78.99% of the trace)
┌────┬─────────┬───────────┬─────────┬────────┬──────┬─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ ID │ Start │ Time │ Threads │ Blocks │ Regs │ Name ⋯
├────┼─────────┼───────────┼─────────┼────────┼──────┼─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ 2 │ 2.11 ms │ 311.26 µs │ 4×4×16 │ 216×2 │ 29 │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float3 ⋯
│ 4 │ 2.42 ms │ 1.77 ms │ 256 │ 284 │ 48 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS3_ILi1EES2_Li1ELi1EEELi4E13CuDevic ⋯
│ 6 │ 4.2 ms │ 81.95 µs │ 4×4 │ 216 │ 30 │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645SliceI5OneToIS4_EES5_IS6_IS4_EE9UnitRangeIS4_ES5_I ⋯
│ 8 │ 4.29 ms │ 33.47 µs │ 4×4 │ 216 │ 23 │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645SliceI5OneToIS4_EES5_IS6_IS4_EE9UnitRangeIS4_ES5_IS6_ ⋯
│ 10 │ 4.32 ms │ 847.2 µs │ 256 │ 270 │ 33 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_1__2__3_EE6SArrayIS3_ILi3EES2_Li1ELi3EEELi4E13CuDevi ⋯
│ 12 │ 5.17 ms │ 538.14 µs │ 4×4×16 │ 216×2 │ 33 │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS2_ILi1EES1_Li1ELi1EEELi4E13CuDeviceArrayIS1_Li5ELi1E ⋯
│ 14 │ 5.71 ms │ 2.19 ms │ 256 │ 270 │ 72 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16PlaceholderSpaceE11BroadcastedI22CUDAColumnStencilStyleS3_4 ⋯
│ 16 │ 7.9 ms │ 556.9 µs │ 4×4×16 │ 216×2 │ 31 │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float32__N__CUDA_Mem_Device ⋯
│ 18 │ 8.46 ms │ 371.55 µs │ 4×4×16 │ 216×2 │ 32 │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float32__N__CUDA_Mem_DeviceBuffer__whe ⋯
│ 20 │ 8.84 ms │ 380.7 µs │ 4×4×16 │ 216×2 │ 31 │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float32__N__CUDA_Mem_DeviceBuffer__whe ⋯
│ 22 │ 9.22 ms │ 982.65 µs │ 4×4 │ 216 │ 58 │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux_u______flux_h_tot_5TupleI8PhaseDryI7Float32ES3_S3_S ⋯
└────┴─────────┴───────────┴─────────┴────────┴──────┴─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
1 column omitted
--------------- Benchmarking post_implicit!... Profile for post_implicit!:
Profiler ran for 9.33 ms, capturing 34 events.
Host-side activity: calling CUDA APIs took 815.5 µs (8.74% of the trace)
┌────┬──────────┬──────────┬────────────────┐
│ ID │ Start │ Time │ Name │
├────┼──────────┼──────────┼────────────────┤
│ 2 │ 27.4 µs │ 717.9 µs │ cuLaunchKernel │
│ 4 │ 775.0 µs │ 15.3 µs │ cuLaunchKernel │
│ 6 │ 799.4 µs │ 7.4 µs │ cuLaunchKernel │
│ 8 │ 814.2 µs │ 6.2 µs │ cuLaunchKernel │
│ 10 │ 828.9 µs │ 10.9 µs │ cuLaunchKernel │
│ 12 │ 847.3 µs │ 7.8 µs │ cuLaunchKernel │
│ 14 │ 863.8 µs │ 16.4 µs │ cuLaunchKernel │
│ 16 │ 889.2 µs │ 7.0 µs │ cuLaunchKernel │
│ 18 │ 903.0 µs │ 5.4 µs │ cuLaunchKernel │
│ 20 │ 914.7 µs │ 6.0 µs │ cuLaunchKernel │
│ 22 │ 930.8 µs │ 13.2 µs │ cuLaunchKernel │
└────┴──────────┴──────────┴────────────────┘
Device-side activity: GPU was busy for 8.05 ms (86.30% of the trace)
┌────┬─────────┬───────────┬─────────┬────────┬──────┬─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ ID │ Start │ Time │ Threads │ Blocks │ Regs │ Name ⋯
├────┼─────────┼───────────┼─────────┼────────┼──────┼─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ 2 │ 1.21 ms │ 313.57 µs │ 4×4×16 │ 216×2 │ 29 │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float3 ⋯
│ 4 │ 1.52 ms │ 1.77 ms │ 256 │ 284 │ 48 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS3_ILi1EES2_Li1ELi1EEELi4E13CuDevic ⋯
│ 6 │ 3.29 ms │ 81.25 µs │ 4×4 │ 216 │ 30 │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645SliceI5OneToIS4_EES5_IS6_IS4_EE9UnitRangeIS4_ES5_I ⋯
│ 8 │ 3.38 ms │ 33.57 µs │ 4×4 │ 216 │ 23 │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645SliceI5OneToIS4_EES5_IS6_IS4_EE9UnitRangeIS4_ES5_IS6_ ⋯
│ 10 │ 3.41 ms │ 846.78 µs │ 256 │ 270 │ 33 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_1__2__3_EE6SArrayIS3_ILi3EES2_Li1ELi3EEELi4E13CuDevi ⋯
│ 12 │ 4.26 ms │ 536.0 µs │ 4×4×16 │ 216×2 │ 33 │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS2_ILi1EES1_Li1ELi1EEELi4E13CuDeviceArrayIS1_Li5ELi1E ⋯
│ 14 │ 4.8 ms │ 2.19 ms │ 256 │ 270 │ 72 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16PlaceholderSpaceE11BroadcastedI22CUDAColumnStencilStyleS3_4 ⋯
│ 16 │ 6.99 ms │ 557.25 µs │ 4×4×16 │ 216×2 │ 31 │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float32__N__CUDA_Mem_Device ⋯
│ 18 │ 7.55 ms │ 373.82 µs │ 4×4×16 │ 216×2 │ 32 │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float32__N__CUDA_Mem_DeviceBuffer__whe ⋯
│ 20 │ 7.93 ms │ 378.62 µs │ 4×4×16 │ 216×2 │ 31 │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float32__N__CUDA_Mem_DeviceBuffer__whe ⋯
│ 22 │ 8.31 ms │ 975.29 µs │ 4×4 │ 216 │ 58 │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux_u______flux_h_tot_5TupleI8PhaseDryI7Float32ES3_S3_S ⋯
└────┴─────────┴───────────┴─────────┴────────┴──────┴─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
1 column omitted
--------------- Benchmarking step!...[ Info: Progress: Completed first step
┌ Info: Progress
│ simulation_time = "30 seconds"
│ n_steps_completed = 3
│ wall_time_per_step = "30 milliseconds, 666 microseconds"
│ wall_time_total = "11 seconds, 40 milliseconds"
│ wall_time_remaining = "10 seconds, 948 milliseconds"
│ wall_time_spent = "92 milliseconds, 8 nanoseconds"
│ percent_complete = "0.8%"
│ sypd = 0.893
│ date_now = 2024-05-02T15:08:59.358
└ estimated_finish_date = 2024-05-02T15:09:10.289
┌ Info: Progress
│ simulation_time = "50 seconds"
│ n_steps_completed = 5
│ wall_time_per_step = "118 milliseconds, 799 microseconds"
│ wall_time_total = "42 seconds, 767 milliseconds"
│ wall_time_remaining = "42 seconds, 173 milliseconds"
│ wall_time_spent = "593 milliseconds, 999 microseconds"
│ percent_complete = "1.4%"
│ sypd = 0.231
│ date_now = 2024-05-02T15:08:59.662
└ estimated_finish_date = 2024-05-02T15:09:41.830
┌ Info: Progress
│ simulation_time = "1 minute, 30 seconds"
│ n_steps_completed = 9
│ wall_time_per_step = "86 milliseconds, 222 microseconds"
│ wall_time_total = "31 seconds, 40 milliseconds"
│ wall_time_remaining = "30 seconds, 264 milliseconds"
│ wall_time_spent = "776 milliseconds, 23 nanoseconds"
│ percent_complete = "2.5%"
│ sypd = 0.318
│ date_now = 2024-05-02T15:08:59.877
└ estimated_finish_date = 2024-05-02T15:09:30.141
Profile for step!:
Profiler ran for 202.94 ms, capturing 1155 events.
Host-side activity: calling CUDA APIs took 198.29 ms (97.71% of the trace)
┌─────┬───────────┬──────────┬─────────────────────┐
│ ID │ Start │ Time │ Name │
├─────┼───────────┼──────────┼─────────────────────┤
│ 4 │ 39.7 µs │ 702.1 µs │ cuLaunchKernel │
│ 8 │ 760.8 µs │ 6.6 µs │ cuLaunchKernel │
│ 10 │ 771.0 µs │ 10.8 µs │ cuMemsetD32Async │
│ 12 │ 782.4 µs │ 3.1 µs │ cuMemsetD32Async │
│ 14 │ 786.7 µs │ 3.0 µs │ cuMemsetD32Async │
│ 16 │ 790.3 µs │ 2.4 µs │ cuMemsetD32Async │
│ 18 │ 802.5 µs │ 7.3 µs │ cuLaunchKernel │
│ 20 │ 815.1 µs │ 6.6 µs │ cuLaunchKernel │
│ 22 │ 828.7 µs │ 8.1 µs │ cuLaunchKernel │
│ 24 │ 843.0 µs │ 6.6 µs │ cuLaunchKernel │
│ 26 │ 854.6 µs │ 5.8 µs │ cuLaunchKernel │
│ 28 │ 863.1 µs │ 9.77 ms │ cuStreamSynchronize │
│ 30 │ 10.66 ms │ 16.7 µs │ cuLaunchKernel │
│ 32 │ 10.68 ms │ 5.3 µs │ cuLaunchKernel │
│ 34 │ 10.69 ms │ 5.2 µs │ cuLaunchKernel │
│ 36 │ 10.7 ms │ 3.8 µs │ cuLaunchKernel │
│ 38 │ 10.71 ms │ 3.0 µs │ cuLaunchKernel │
│ 40 │ 10.71 ms │ 3.6 µs │ cuLaunchKernel │
│ 42 │ 10.72 ms │ 7.0 µs │ cuLaunchKernel │
│ 44 │ 10.74 ms │ 11.3 µs │ cuLaunchKernel │
│ 46 │ 10.76 ms │ 8.0 µs │ cuLaunchKernel │
│ 48 │ 10.77 ms │ 6.0 µs │ cuLaunchKernel │
│ 50 │ 10.78 ms │ 5.6 µs │ cuLaunchKernel │
│ 52 │ 10.79 ms │ 5.6 µs │ cuLaunchKernel │
│ 54 │ 10.81 ms │ 38.3 µs │ cuLaunchKernel │
│ 56 │ 10.85 ms │ 11.4 µs │ cuLaunchKernel │
│ 58 │ 10.87 ms │ 7.8 µs │ cuLaunchKernel │
│ 62 │ 10.91 ms │ 6.1 µs │ cuLaunchKernel │
│ 66 │ 10.92 ms │ 3.6 µs │ cuLaunchKernel │
│ 70 │ 10.94 ms │ 3.4 µs │ cuLaunchKernel │
│ 74 │ 10.95 ms │ 3.3 µs │ cuLaunchKernel │
│ 76 │ 10.95 ms │ 29.14 ms │ cuStreamSynchronize │
│ 78 │ 40.12 ms │ 32.1 µs │ cuLaunchKernel │
│ 80 │ 40.17 ms │ 9.0 µs │ cuLaunchKernel │
│ 82 │ 40.19 ms │ 26.7 µs │ cuLaunchKernel │
│ 84 │ 40.22 ms │ 6.7 µs │ cuLaunchKernel │
│ 86 │ 40.23 ms │ 5.2 µs │ cuLaunchKernel │
│ 88 │ 40.26 ms │ 5.7 µs │ cuLaunchKernel │
│ 92 │ 40.29 ms │ 6.8 µs │ cuLaunchKernel │
│ 96 │ 40.3 ms │ 7.7 µs │ cuLaunchKernel │
│ 98 │ 40.32 ms │ 7.8 µs │ cuLaunchKernel │
│ 100 │ 40.34 ms │ 9.9 µs │ cuLaunchKernel │
│ 102 │ 40.36 ms │ 7.2 µs │ cuLaunchKernel │
│ 104 │ 40.37 ms │ 6.2 µs │ cuLaunchKernel │
│ 106 │ 40.39 ms │ 10.4 µs │ cuLaunchKernel │
│ 108 │ 40.41 ms │ 53.1 µs │ cuLaunchKernel │
│ 110 │ 40.47 ms │ 17.3 µs │ cuLaunchKernel │
│ 112 │ 40.5 ms │ 7.3 µs │ cuLaunchKernel │
│ 114 │ 40.51 ms │ 6.0 µs │ cuLaunchKernel │
│ 116 │ 40.53 ms │ 7.3 µs │ cuLaunchKernel │
│ 118 │ 40.55 ms │ 22.0 µs │ cuLaunchKernel │
│ 120 │ 40.59 ms │ 8.3 µs │ cuLaunchKernel │
│ 122 │ 40.61 ms │ 20.9 µs │ cuLaunchKernel │
│ 124 │ 40.64 ms │ 12.1 µs │ cuLaunchKernel │
│ 126 │ 40.65 ms │ 9.2 µs │ cuLaunchKernel │
│ 128 │ 40.67 ms │ 9.5 µs │ cuLaunchKernel │
│ 130 │ 40.69 ms │ 19.6 µs │ cuLaunchKernel │
│ 132 │ 40.74 ms │ 13.3 µs │ cuLaunchKernel │
│ 134 │ 40.78 ms │ 13.7 µs │ cuLaunchKernel │
│ 136 │ 40.81 ms │ 8.6 µs │ cuLaunchKernel │
│ 138 │ 40.82 ms │ 10.2 µs │ cuLaunchKernel │
│ 140 │ 40.84 ms │ 10.0 µs │ cuLaunchKernel │
│ 142 │ 40.86 ms │ 12.8 µs │ cuMemsetD32Async │
│ 144 │ 40.87 ms │ 4.7 µs │ cuMemsetD32Async │
│ 146 │ 40.88 ms │ 11.9 µs │ cuLaunchKernel │
│ 148 │ 40.91 ms │ 11.5 µs │ cuLaunchKernel │
│ 150 │ 40.93 ms │ 11.7 µs │ cuLaunchKernel │
│ 154 │ 40.96 ms │ 9.2 µs │ cuLaunchKernel │
│ 158 │ 40.97 ms │ 15.7 µs │ cuLaunchKernel │
│ 160 │ 41.02 ms │ 7.6 µs │ cuLaunchKernel │
│ 162 │ 41.04 ms │ 24.7 µs │ cuLaunchKernel │
│ 164 │ 41.07 ms │ 7.1 µs │ cuLaunchKernel │
│ 166 │ 41.09 ms │ 10.6 µs │ cuLaunchKernel │
│ 168 │ 41.1 ms │ 7.4 µs │ cuLaunchKernel │
│ 170 │ 41.12 ms │ 8.9 µs │ cuLaunchKernel │
│ 172 │ 41.14 ms │ 8.2 µs │ cuLaunchKernel │
│ 174 │ 41.15 ms │ 8.7 µs │ cuLaunchKernel │
│ 176 │ 41.17 ms │ 9.0 µs │ cuLaunchKernel │
│ 180 │ 41.19 ms │ 27.6 µs │ cuLaunchKernel │
│ 184 │ 41.23 ms │ 5.6 µs │ cuLaunchKernel │
│ 188 │ 41.26 ms │ 8.4 µs │ cuLaunchKernel │
│ 192 │ 41.28 ms │ 14.0 µs │ cuLaunchKernel │
│ 194 │ 41.3 ms │ 6.7 µs │ cuLaunchKernel │
│ 196 │ 41.31 ms │ 10.3 µs │ cuLaunchKernel │
│ 198 │ 41.33 ms │ 7.3 µs │ cuLaunchKernel │
│ 200 │ 41.34 ms │ 5.3 µs │ cuLaunchKernel │
│ 202 │ 41.35 ms │ 9.0 µs │ cuLaunchKernel │
│ 204 │ 41.37 ms │ 6.5 µs │ cuLaunchKernel │
│ 206 │ 41.38 ms │ 15.0 µs │ cuLaunchKernel │
│ 208 │ 41.4 ms │ 6.0 µs │ cuLaunchKernel │
│ 210 │ 41.41 ms │ 5.3 µs │ cuLaunchKernel │
│ 212 │ 41.42 ms │ 5.8 µs │ cuLaunchKernel │
│ 214 │ 41.43 ms │ 11.7 µs │ cuLaunchKernel │
│ 216 │ 41.45 ms │ 19.4 µs │ cuMemsetD32Async │
│ 218 │ 41.47 ms │ 24.2 µs │ cuMemsetD32Async │
│ 220 │ 41.5 ms │ 4.8 µs │ cuMemsetD32Async │
│ 222 │ 41.51 ms │ 4.3 µs │ cuMemsetD32Async │
│ 224 │ 41.52 ms │ 9.1 µs │ cuLaunchKernel │
│ 226 │ 41.54 ms │ 9.0 µs │ cuLaunchKernel │
│ 228 │ 41.56 ms │ 10.6 µs │ cuLaunchKernel │
│ 230 │ 41.58 ms │ 9.1 µs │ cuLaunchKernel │
│ 232 │ 41.59 ms │ 8.7 µs │ cuLaunchKernel │
│ 234 │ 41.61 ms │ 84.99 ms │ cuStreamSynchronize │
│ 236 │ 126.65 ms │ 23.8 µs │ cuLaunchKernel │
│ 238 │ 126.68 ms │ 19.0 µs │ cuLaunchKernel │
│ 240 │ 126.7 ms │ 5.3 µs │ cuLaunchKernel │
│ 242 │ 126.71 ms │ 3.5 µs │ cuLaunchKernel │
│ 244 │ 126.72 ms │ 2.7 µs │ cuLaunchKernel │
│ 246 │ 126.72 ms │ 3.6 µs │ cuLaunchKernel │
│ 248 │ 126.74 ms │ 6.8 µs │ cuLaunchKernel │
│ 250 │ 126.75 ms │ 5.5 µs │ cuLaunchKernel │
│ 252 │ 126.76 ms │ 7.4 µs │ cuLaunchKernel │
│ 254 │ 126.78 ms │ 6.1 µs │ cuLaunchKernel │
│ 256 │ 126.79 ms │ 5.5 µs │ cuLaunchKernel │
│ 258 │ 126.8 ms │ 5.6 µs │ cuLaunchKernel │
│ 260 │ 126.82 ms │ 60.5 µs │ cuLaunchKernel │
│ 262 │ 126.89 ms │ 31.3 µs │ cuLaunchKernel │
│ 264 │ 126.93 ms │ 8.1 µs │ cuLaunchKernel │
│ 268 │ 126.98 ms │ 26.1 µs │ cuLaunchKernel │
│ 272 │ 127.01 ms │ 4.1 µs │ cuLaunchKernel │
│ 276 │ 127.03 ms │ 19.3 µs │ cuLaunchKernel │
│ 280 │ 127.05 ms │ 16.8 µs │ cuLaunchKernel │
│ 284 │ 127.08 ms │ 3.8 µs │ cuLaunchKernel │
│ 288 │ 127.09 ms │ 3.0 µs │ cuLaunchKernel │
│ 290 │ 127.1 ms │ 32.58 ms │ cuStreamSynchronize │
│ 292 │ 159.74 ms │ 39.1 µs │ cuLaunchKernel │
│ 294 │ 159.8 ms │ 6.5 µs │ cuLaunchKernel │
│ 296 │ 159.82 ms │ 5.7 µs │ cuLaunchKernel │
│ 298 │ 159.84 ms │ 4.2 µs │ cuLaunchKernel │
│ 300 │ 159.85 ms │ 3.0 µs │ cuLaunchKernel │
│ 302 │ 159.86 ms │ 3.9 µs │ cuLaunchKernel │
│ 306 │ 159.89 ms │ 4.8 µs │ cuLaunchKernel │
│ 310 │ 159.9 ms │ 3.4 µs │ cuLaunchKernel │
│ 312 │ 159.93 ms │ 5.3 µs │ cuLaunchKernel │
│ 314 │ 159.96 ms │ 26.8 µs │ cuLaunchKernel │
│ 316 │ 159.99 ms │ 4.9 µs │ cuLaunchKernel │
│ 318 │ 160.0 ms │ 18.2 µs │ cuLaunchKernel │
│ 320 │ 160.03 ms │ 25.9 µs │ cuLaunchKernel │
│ 322 │ 160.07 ms │ 45.0 µs │ cuLaunchKernel │
│ 324 │ 160.13 ms │ 12.9 µs │ cuLaunchKernel │
│ 326 │ 160.26 ms │ 5.0 µs │ cuLaunchKernel │
│ 328 │ 160.27 ms │ 3.9 µs │ cuLaunchKernel │
│ 330 │ 160.28 ms │ 4.7 µs │ cuLaunchKernel │
│ 332 │ 160.3 ms │ 28.3 µs │ cuLaunchKernel │
│ 334 │ 160.34 ms │ 23.0 µs │ cuLaunchKernel │
│ 336 │ 160.37 ms │ 24.3 µs │ cuLaunchKernel │
│ 338 │ 160.4 ms │ 8.8 µs │ cuLaunchKernel │
│ 340 │ 160.43 ms │ 6.6 µs │ cuLaunchKernel │
│ 342 │ 160.44 ms │ 6.5 µs │ cuLaunchKernel │
│ 344 │ 160.45 ms │ 33.2 µs │ cuLaunchKernel │
│ 346 │ 160.5 ms │ 7.8 µs │ cuLaunchKernel │
│ 348 │ 160.51 ms │ 9.8 µs │ cuLaunchKernel │
│ 350 │ 160.54 ms │ 5.6 µs │ cuLaunchKernel │
│ 352 │ 160.55 ms │ 6.8 µs │ cuLaunchKernel │
│ 354 │ 160.58 ms │ 7.5 µs │ cuLaunchKernel │
│ 356 │ 160.59 ms │ 23.5 µs │ cuMemsetD32Async │
│ 358 │ 160.62 ms │ 2.7 µs │ cuMemsetD32Async │
│ 360 │ 160.65 ms │ 7.4 µs │ cuLaunchKernel │
│ 362 │ 160.66 ms │ 20.5 µs │ cuLaunchKernel │
│ 364 │ 160.69 ms │ 14.4 µs │ cuLaunchKernel │
│ 368 │ 160.71 ms │ 5.1 µs │ cuLaunchKernel │
│ 372 │ 160.74 ms │ 11.0 µs │ cuLaunchKernel │
│ 374 │ 160.75 ms │ 18.8 µs │ cuLaunchKernel │
│ 376 │ 160.79 ms │ 7.5 µs │ cuLaunchKernel │
│ 378 │ 160.8 ms │ 4.3 µs │ cuLaunchKernel │
│ 380 │ 160.81 ms │ 20.6 µs │ cuLaunchKernel │
│ 382 │ 160.84 ms │ 5.0 µs │ cuLaunchKernel │
│ 384 │ 160.85 ms │ 6.6 µs │ cuLaunchKernel │
│ 386 │ 160.87 ms │ 5.5 µs │ cuLaunchKernel │
│ 388 │ 160.88 ms │ 5.9 µs │ cuLaunchKernel │
│ 390 │ 160.89 ms │ 5.2 µs │ cuLaunchKernel │
│ 394 │ 160.9 ms │ 18.9 µs │ cuLaunchKernel │
│ 398 │ 160.93 ms │ 16.4 µs │ cuLaunchKernel │
│ 402 │ 160.95 ms │ 18.0 µs │ cuLaunchKernel │
│ 406 │ 160.97 ms │ 9.3 µs │ cuLaunchKernel │
│ 408 │ 160.99 ms │ 4.7 µs │ cuLaunchKernel │
│ 410 │ 161.01 ms │ 6.1 µs │ cuLaunchKernel │
│ 412 │ 161.03 ms │ 4.2 µs │ cuLaunchKernel │
│ 414 │ 161.05 ms │ 3.2 µs │ cuLaunchKernel │
│ 416 │ 161.06 ms │ 6.4 µs │ cuLaunchKernel │
│ 418 │ 161.07 ms │ 4.4 µs │ cuLaunchKernel │
│ 420 │ 161.08 ms │ 10.5 µs │ cuLaunchKernel │
│ 422 │ 161.09 ms │ 3.7 µs │ cuLaunchKernel │
│ 424 │ 161.1 ms │ 3.3 µs │ cuLaunchKernel │
│ 426 │ 161.11 ms │ 3.5 µs │ cuLaunchKernel │
│ 428 │ 161.11 ms │ 8.6 µs │ cuLaunchKernel │
│ 430 │ 161.13 ms │ 12.8 µs │ cuMemsetD32Async │
│ 432 │ 161.14 ms │ 3.7 µs │ cuMemsetD32Async │
│ 434 │ 161.14 ms │ 2.5 µs │ cuMemsetD32Async │
│ 436 │ 161.15 ms │ 2.4 µs │ cuMemsetD32Async │
│ 438 │ 161.16 ms │ 6.1 µs │ cuLaunchKernel │
│ 440 │ 161.19 ms │ 6.4 µs │ cuLaunchKernel │
│ 442 │ 161.2 ms │ 7.2 µs │ cuLaunchKernel │
│ 444 │ 161.21 ms │ 6.3 µs │ cuLaunchKernel │
│ 446 │ 161.22 ms │ 5.8 µs │ cuLaunchKernel │
│ 448 │ 161.23 ms │ 22.2 ms │ cuStreamSynchronize │
│ 450 │ 183.45 ms │ 20.9 µs │ cuLaunchKernel │
│ 452 │ 183.48 ms │ 5.4 µs │ cuLaunchKernel │
│ 454 │ 183.49 ms │ 5.8 µs │ cuLaunchKernel │
│ 456 │ 183.5 ms │ 3.9 µs │ cuLaunchKernel │
│ 458 │ 183.51 ms │ 2.9 µs │ cuLaunchKernel │
│ 460 │ 183.52 ms │ 3.6 µs │ cuLaunchKernel │
│ 462 │ 183.53 ms │ 6.6 µs │ cuLaunchKernel │
│ 464 │ 183.54 ms │ 5.6 µs │ cuLaunchKernel │
│ 466 │ 183.55 ms │ 7.7 µs │ cuLaunchKernel │
│ 468 │ 183.57 ms │ 5.9 µs │ cuLaunchKernel │
│ 470 │ 183.6 ms │ 6.6 µs │ cuLaunchKernel │
│ 472 │ 183.61 ms │ 5.7 µs │ cuLaunchKernel │
│ 474 │ 183.62 ms │ 20.2 µs │ cuLaunchKernel │
│ 476 │ 183.65 ms │ 10.8 µs │ cuLaunchKernel │
│ 478 │ 183.67 ms │ 7.5 µs │ cuLaunchKernel │
│ 482 │ 183.69 ms │ 8.9 µs │ cuLaunchKernel │
│ 486 │ 183.71 ms │ 4.2 µs │ cuLaunchKernel │
│ 490 │ 183.72 ms │ 4.2 µs │ cuLaunchKernel │
│ 494 │ 183.73 ms │ 3.9 µs │ cuLaunchKernel │
│ 498 │ 183.75 ms │ 4.5 µs │ cuLaunchKernel │
│ 502 │ 183.76 ms │ 3.6 µs │ cuLaunchKernel │
│ 504 │ 183.76 ms │ 3.59 ms │ cuStreamSynchronize │
│ 506 │ 187.36 ms │ 5.8 µs │ cuLaunchKernel │
│ 508 │ 187.38 ms │ 3.6 µs │ cuLaunchKernel │
│ 510 │ 187.38 ms │ 3.9 µs │ cuLaunchKernel │
│ 512 │ 187.39 ms │ 3.7 µs │ cuLaunchKernel │
│ 514 │ 187.4 ms │ 2.7 µs │ cuLaunchKernel │
│ 516 │ 187.4 ms │ 3.6 µs │ cuLaunchKernel │
│ 520 │ 187.42 ms │ 3.9 µs │ cuLaunchKernel │
│ 524 │ 187.43 ms │ 3.0 µs │ cuLaunchKernel │
│ 526 │ 187.43 ms │ 4.6 µs │ cuLaunchKernel │
│ 528 │ 187.45 ms │ 9.7 µs │ cuLaunchKernel │
│ 530 │ 187.46 ms │ 5.0 µs │ cuLaunchKernel │
│ 532 │ 187.47 ms │ 3.6 µs │ cuLaunchKernel │
│ 534 │ 187.48 ms │ 6.6 µs │ cuLaunchKernel │
│ 536 │ 187.49 ms │ 11.3 µs │ cuLaunchKernel │
│ 538 │ 187.51 ms │ 11.8 µs │ cuLaunchKernel │
│ 540 │ 187.53 ms │ 4.3 µs │ cuLaunchKernel │
│ 542 │ 187.54 ms │ 3.4 µs │ cuLaunchKernel │
│ 544 │ 187.54 ms │ 4.1 µs │ cuLaunchKernel │
│ 546 │ 187.55 ms │ 9.1 µs │ cuLaunchKernel │
│ 548 │ 187.59 ms │ 4.5 µs │ cuLaunchKernel │
│ 550 │ 187.6 ms │ 5.1 µs │ cuLaunchKernel │
│ 552 │ 187.61 ms │ 8.3 µs │ cuLaunchKernel │
│ 554 │ 187.62 ms │ 6.4 µs │ cuLaunchKernel │
│ 556 │ 187.63 ms │ 6.3 µs │ cuLaunchKernel │
│ 558 │ 187.65 ms │ 12.2 µs │ cuLaunchKernel │
│ 560 │ 187.67 ms │ 7.3 µs │ cuLaunchKernel │
│ 562 │ 187.68 ms │ 8.9 µs │ cuLaunchKernel │
│ 564 │ 187.7 ms │ 5.5 µs │ cuLaunchKernel │
│ 566 │ 187.71 ms │ 7.0 µs │ cuLaunchKernel │
│ 568 │ 187.72 ms │ 7.0 µs │ cuLaunchKernel │
│ 570 │ 187.73 ms │ 9.0 µs │ cuMemsetD32Async │
│ 572 │ 187.74 ms │ 2.8 µs │ cuMemsetD32Async │
│ 574 │ 187.75 ms │ 6.4 µs │ cuLaunchKernel │
│ 576 │ 187.76 ms │ 9.9 µs │ cuLaunchKernel │
│ 578 │ 187.78 ms │ 17.3 µs │ cuLaunchKernel │
│ 582 │ 187.81 ms │ 4.6 µs │ cuLaunchKernel │
│ 586 │ 187.82 ms │ 9.9 µs │ cuLaunchKernel │
│ 588 │ 187.83 ms │ 5.4 µs │ cuLaunchKernel │
│ 590 │ 187.84 ms │ 7.3 µs │ cuLaunchKernel │
│ 592 │ 187.86 ms │ 4.5 µs │ cuLaunchKernel │
│ 594 │ 187.87 ms │ 7.1 µs │ cuLaunchKernel │
│ 596 │ 187.88 ms │ 4.7 µs │ cuLaunchKernel │
│ 598 │ 187.89 ms │ 6.5 µs │ cuLaunchKernel │
│ 600 │ 187.9 ms │ 5.5 µs │ cuLaunchKernel │
│ 602 │ 187.91 ms │ 6.2 µs │ cuLaunchKernel │
│ 604 │ 187.92 ms │ 5.2 µs │ cuLaunchKernel │
│ 608 │ 187.93 ms │ 4.4 µs │ cuLaunchKernel │
│ 612 │ 187.94 ms │ 3.2 µs │ cuLaunchKernel │
│ 616 │ 187.96 ms │ 4.1 µs │ cuLaunchKernel │
│ 620 │ 187.97 ms │ 8.7 µs │ cuLaunchKernel │
│ 622 │ 187.98 ms │ 4.2 µs │ cuLaunchKernel │
│ 624 │ 187.99 ms │ 6.7 µs │ cuLaunchKernel │
│ 626 │ 188.0 ms │ 5.0 µs │ cuLaunchKernel │
│ 628 │ 188.01 ms │ 3.0 µs │ cuLaunchKernel │
│ 630 │ 188.01 ms │ 6.1 µs │ cuLaunchKernel │
│ 632 │ 188.02 ms │ 4.3 µs │ cuLaunchKernel │
│ 634 │ 188.03 ms │ 10.8 µs │ cuLaunchKernel │
│ 636 │ 188.05 ms │ 3.9 µs │ cuLaunchKernel │
│ 638 │ 188.06 ms │ 3.2 µs │ cuLaunchKernel │
│ 640 │ 188.06 ms │ 4.1 µs │ cuLaunchKernel │
│ 642 │ 188.07 ms │ 8.8 µs │ cuLaunchKernel │
│ 644 │ 188.08 ms │ 12.0 µs │ cuMemsetD32Async │
│ 646 │ 188.1 ms │ 3.4 µs │ cuMemsetD32Async │
│ 648 │ 188.1 ms │ 2.8 µs │ cuMemsetD32Async │
│ 650 │ 188.1 ms │ 2.5 µs │ cuMemsetD32Async │
│ 652 │ 188.11 ms │ 5.9 µs │ cuLaunchKernel │
│ 654 │ 188.12 ms │ 8.9 µs │ cuLaunchKernel │
│ 656 │ 188.14 ms │ 6.9 µs │ cuLaunchKernel │
│ 658 │ 188.15 ms │ 6.5 µs │ cuLaunchKernel │
│ 660 │ 188.16 ms │ 5.4 µs │ cuLaunchKernel │
│ 662 │ 188.17 ms │ 8.35 ms │ cuStreamSynchronize │
│ 664 │ 196.53 ms │ 13.4 µs │ cuLaunchKernel │
│ 666 │ 196.55 ms │ 4.5 µs │ cuLaunchKernel │
│ 668 │ 196.56 ms │ 4.8 µs │ cuLaunchKernel │
│ 670 │ 196.57 ms │ 3.7 µs │ cuLaunchKernel │
│ 672 │ 196.57 ms │ 2.9 µs │ cuLaunchKernel │
│ 674 │ 196.58 ms │ 3.6 µs │ cuLaunchKernel │
│ 676 │ 196.61 ms │ 7.1 µs │ cuLaunchKernel │
│ 678 │ 196.62 ms │ 19.7 µs │ cuLaunchKernel │
│ 680 │ 196.66 ms │ 7.4 µs │ cuLaunchKernel │
│ 682 │ 196.67 ms │ 6.0 µs │ cuLaunchKernel │
│ 684 │ 196.68 ms │ 5.4 µs │ cuLaunchKernel │
│ 686 │ 196.69 ms │ 5.7 µs │ cuLaunchKernel │
│ 688 │ 196.7 ms │ 16.8 µs │ cuLaunchKernel │
│ 690 │ 196.73 ms │ 10.6 µs │ cuLaunchKernel │
│ 692 │ 196.75 ms │ 7.0 µs │ cuLaunchKernel │
│ 696 │ 196.76 ms │ 5.4 µs │ cuLaunchKernel │
│ 700 │ 196.78 ms │ 4.1 µs │ cuLaunchKernel │
│ 704 │ 196.79 ms │ 3.6 µs │ cuLaunchKernel │
│ 708 │ 196.8 ms │ 3.1 µs │ cuLaunchKernel │
│ 712 │ 196.81 ms │ 4.1 µs │ cuLaunchKernel │
│ 716 │ 196.82 ms │ 4.0 µs │ cuLaunchKernel │
│ 720 │ 196.83 ms │ 4.0 µs │ cuLaunchKernel │
│ 724 │ 196.84 ms │ 3.9 µs │ cuLaunchKernel │
│ 726 │ 196.85 ms │ 3.8 ms │ cuStreamSynchronize │
│ 728 │ 200.66 ms │ 5.9 µs │ cuLaunchKernel │
│ 730 │ 200.66 ms │ 3.4 µs │ cuLaunchKernel │
│ 732 │ 200.67 ms │ 7.5 µs │ cuLaunchKernel │
│ 734 │ 200.68 ms │ 3.8 µs │ cuLaunchKernel │
│ 736 │ 200.69 ms │ 2.8 µs │ cuLaunchKernel │
│ 738 │ 200.69 ms │ 3.5 µs │ cuLaunchKernel │
│ 740 │ 200.7 ms │ 4.1 µs │ cuLaunchKernel │
│ 742 │ 200.71 ms │ 6.5 µs │ cuLaunchKernel │
│ 744 │ 200.72 ms │ 4.3 µs │ cuLaunchKernel │
│ 746 │ 200.73 ms │ 3.3 µs │ cuLaunchKernel │
│ 748 │ 200.74 ms │ 6.3 µs │ cuLaunchKernel │
│ 750 │ 200.75 ms │ 4.6 µs │ cuLaunchKernel │
│ 752 │ 200.76 ms │ 17.4 µs │ cuLaunchKernel │
│ 754 │ 200.78 ms │ 5.0 µs │ cuLaunchKernel │
│ 756 │ 200.79 ms │ 3.6 µs │ cuLaunchKernel │
│ 758 │ 200.8 ms │ 4.1 µs │ cuLaunchKernel │
│ 760 │ 200.81 ms │ 10.6 µs │ cuLaunchKernel │
│ 762 │ 201.17 ms │ 11.2 µs │ cuLaunchKernel │
│ 764 │ 201.2 ms │ 5.4 µs │ cuLaunchKernel │
│ 766 │ 201.22 ms │ 5.4 µs │ cuLaunchKernel │
│ 768 │ 201.25 ms │ 8.3 µs │ cuLaunchKernel │
│ 770 │ 201.26 ms │ 5.1 µs │ cuLaunchKernel │
│ 772 │ 201.28 ms │ 3.3 µs │ cuLaunchKernel │
│ 774 │ 201.29 ms │ 6.0 µs │ cuLaunchKernel │
│ 776 │ 201.31 ms │ 3.4 µs │ cuLaunchKernel │
│ 778 │ 201.32 ms │ 4.8 µs │ cuLaunchKernel │
│ 780 │ 201.33 ms │ 13.1 µs │ cuLaunchKernel │
│ 782 │ 201.36 ms │ 16.9 µs │ cuLaunchKernel │
│ 784 │ 201.38 ms │ 3.9 µs │ cuLaunchKernel │
│ 786 │ 201.4 ms │ 6.1 µs │ cuLaunchKernel │
│ 788 │ 201.41 ms │ 3.4 µs │ cuLaunchKernel │
│ 790 │ 201.42 ms │ 5.6 µs │ cuLaunchKernel │
│ 792 │ 201.44 ms │ 3.3 µs │ cuLaunchKernel │
│ 794 │ 201.47 ms │ 6.2 µs │ cuLaunchKernel │
│ 796 │ 201.48 ms │ 3.3 µs │ cuLaunchKernel │
│ 798 │ 201.5 ms │ 6.1 µs │ cuLaunchKernel │
│ 800 │ 201.51 ms │ 3.4 µs │ cuLaunchKernel │
│ 802 │ 201.52 ms │ 3.7 µs │ cuLaunchKernel │
│ 804 │ 201.54 ms │ 4.8 µs │ cuLaunchKernel │
│ 806 │ 201.55 ms │ 3.6 µs │ cuLaunchKernel │
│ 808 │ 201.56 ms │ 4.4 µs │ cuLaunchKernel │
└─────┴───────────┴──────────┴─────────────────────┘
Device-side activity: GPU was busy for 197.98 ms (97.56% of the trace)
┌─────┬───────────┬───────────┬─────────┬────────┬──────┬───────────────────┬─────────────┬──────────────┬─────────────────────────────────────────────────────────────────────────────────────────────
│ ID │ Start │ Time │ Threads │ Blocks │ Regs │ Shared Mem │ Size │ Throughput │ Name ⋯
├─────┼───────────┼───────────┼─────────┼────────┼──────┼───────────────────┼─────────────┼──────────────┼─────────────────────────────────────────────────────────────────────────────────────────────
│ 4 │ 1.13 ms │ 1.51 ms │ 1024 │ 5 │ 64 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 8 │ 2.64 ms │ 426.59 µs │ 1024 │ 5 │ 64 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 10 │ 3.07 ms │ 143.68 µs │ - │ - │ - │ - │ 1.055 MiB │ 7.168 GiB/s │ [set device memory] ⋯
│ 12 │ 3.22 ms │ 44.48 µs │ - │ - │ - │ - │ 283.500 KiB │ 6.079 GiB/s │ [set device memory] ⋯
│ 14 │ 3.26 ms │ 145.82 µs │ - │ - │ - │ - │ 1.055 MiB │ 7.063 GiB/s │ [set device memory] ⋯
│ 16 │ 3.41 ms │ 42.78 µs │ - │ - │ - │ - │ 283.500 KiB │ 6.319 GiB/s │ [set device memory] ⋯
│ 18 │ 3.46 ms │ 1.04 ms │ 4×4×16 │ 216×2 │ 40 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 20 │ 4.5 ms │ 1.11 ms │ 4×4×16 │ 216×2 │ 40 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 22 │ 5.61 ms │ 970.46 µs │ 4×4×16 │ 216×2 │ 39 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6 ⋯
│ 24 │ 6.59 ms │ 3.15 ms │ 4×4×16 │ 216×2 │ 62 │ 9.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│ 26 │ 9.73 ms │ 893.63 µs │ 4×4×16 │ 216×2 │ 40 │ 3.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeh ⋯
│ 30 │ 10.96 ms │ 1.93 ms │ 256 │ 203 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 32 │ 12.9 ms │ 447.61 µs │ 256 │ 153 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 34 │ 13.35 ms │ 1.92 ms │ 256 │ 203 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 36 │ 15.27 ms │ 520.19 µs │ 256 │ 203 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 38 │ 15.8 ms │ 161.15 µs │ 256 │ 51 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 40 │ 15.96 ms │ 502.52 µs │ 256 │ 203 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 42 │ 16.46 ms │ 3.17 ms │ 4×4×16 │ 216×2 │ 62 │ 9.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│ 44 │ 19.63 ms │ 548.96 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ ⋯
│ 46 │ 20.19 ms │ 1.47 ms │ 256 │ 284 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 48 │ 21.66 ms │ 1.23 ms │ 4×4×16 │ 216×2 │ 62 │ 3.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 50 │ 22.9 ms │ 424.28 µs │ 4×4×16 │ 216×2 │ 31 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│ 52 │ 23.32 ms │ 1.12 ms │ 256 │ 284 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 54 │ 24.44 ms │ 687.0 µs │ 4×4×16 │ 216×2 │ 32 │ 1024 bytes static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│ 56 │ 25.15 ms │ 7.15 ms │ 256 │ 270 │ 78 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_ ⋯
│ 58 │ 32.29 ms │ 2.97 ms │ 256 │ 284 │ 58 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 62 │ 35.27 ms │ 1.89 ms │ 768 │ 5 │ 77 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 66 │ 37.16 ms │ 521.79 µs │ 768 │ 5 │ 77 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 70 │ 37.68 ms │ 1.87 ms │ 768 │ 5 │ 77 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 74 │ 39.56 ms │ 520.7 µs │ 768 │ 5 │ 77 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 78 │ 40.69 ms │ 2.06 ms │ 256 │ 203 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 80 │ 42.76 ms │ 589.76 µs │ 256 │ 204 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 82 │ 43.35 ms │ 2.04 ms │ 256 │ 203 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 84 │ 45.39 ms │ 547.97 µs │ 256 │ 213 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 86 │ 45.94 ms │ 170.05 µs │ 256 │ 54 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 88 │ 46.12 ms │ 529.76 µs │ 256 │ 213 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 92 │ 46.65 ms │ 1.51 ms │ 1024 │ 5 │ 64 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 96 │ 48.16 ms │ 429.02 µs │ 1024 │ 5 │ 64 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 98 │ 48.59 ms │ 314.3 µs │ 4×4×16 │ 216×2 │ 29 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5EL ⋯
│ 100 │ 48.91 ms │ 1.77 ms │ 256 │ 284 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 102 │ 50.67 ms │ 81.57 µs │ 4×4 │ 216 │ 30 │ - │ - │ - │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int6 ⋯
│ 104 │ 50.76 ms │ 33.5 µs │ 4×4 │ 216 │ 23 │ - │ - │ - │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645S ⋯
│ 106 │ 50.79 ms │ 857.92 µs │ 256 │ 270 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_ ⋯
│ 108 │ 51.65 ms │ 536.45 µs │ 4×4×16 │ 216×2 │ 33 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS ⋯
│ 110 │ 52.22 ms │ 2.18 ms │ 256 │ 270 │ 72 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeho ⋯
│ 112 │ 54.4 ms │ 557.56 µs │ 4×4×16 │ 216×2 │ 31 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10 ⋯
│ 114 │ 54.96 ms │ 374.01 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 116 │ 55.34 ms │ 378.3 µs │ 4×4×16 │ 216×2 │ 31 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 118 │ 55.72 ms │ 971.74 µs │ 4×4 │ 216 │ 58 │ - │ - │ - │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux ⋯
│ 120 │ 56.7 ms │ 232.16 µs │ 4×4×16 │ 216×2 │ 21 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 122 │ 56.93 ms │ 657.21 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI13BandMatrixRowILin0ELi1E7AdjointI7Float3210AxisTensorIS2_Li1E5Tuple ⋯
│ 124 │ 57.59 ms │ 1.13 ms │ 256 │ 270 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 126 │ 58.73 ms │ 1.11 ms │ 256 │ 284 │ 37 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 128 │ 59.84 ms │ 2.11 ms │ 256 │ 270 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 130 │ 61.95 ms │ 849.76 µs │ 256 │ 270 │ 32 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 132 │ 62.84 ms │ 1.85 ms │ 256 │ 270 │ 64 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 134 │ 64.69 ms │ 3.33 ms │ 256 │ 284 │ 50 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 136 │ 68.02 ms │ 1.66 ms │ 256 │ 284 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 138 │ 69.68 ms │ 2.86 ms │ 256 │ 284 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 140 │ 72.55 ms │ 2.95 ms │ 256 │ 284 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E ⋯
│ 142 │ 75.51 ms │ 135.97 µs │ - │ - │ - │ - │ 1.055 MiB │ 7.575 GiB/s │ [set device memory] ⋯
│ 144 │ 75.65 ms │ 40.96 µs │ - │ - │ - │ - │ 283.500 KiB │ 6.601 GiB/s │ [set device memory] ⋯
│ 146 │ 75.69 ms │ 2.65 ms │ 256 │ 270 │ 49 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 148 │ 78.34 ms │ 2.65 ms │ 256 │ 270 │ 56 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 150 │ 80.99 ms │ 2.55 ms │ 256 │ 284 │ 38 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 154 │ 83.54 ms │ 2.36 ms │ 640 │ 5 │ 94 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 158 │ 85.91 ms │ 652.6 µs │ 640 │ 5 │ 94 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 160 │ 86.61 ms │ 1.04 ms │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisT ⋯
│ 162 │ 87.65 ms │ 4.99 ms │ 256 │ 284 │ 56 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E ⋯
│ 164 │ 92.65 ms │ 482.4 µs │ 4×4×16 │ 216×2 │ 27 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ ⋯
│ 166 │ 93.13 ms │ 3.01 ms │ 256 │ 284 │ 40 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 168 │ 96.14 ms │ 1.65 ms │ 256 │ 14 │ 47 │ - │ - │ - │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_Li4E13CuDeviceArra ⋯
│ 170 │ 97.79 ms │ 2.38 ms │ 256 │ 284 │ 40 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 172 │ 100.18 ms │ 3.47 ms │ 256 │ 14 │ 43 │ - │ - │ - │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_I10AxisTensorI7Flo ⋯
│ 174 │ 103.65 ms │ 847.55 µs │ 256 │ 270 │ 40 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 176 │ 104.5 ms │ 845.4 µs │ 256 │ 270 │ 40 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 180 │ 105.35 ms │ 1.85 ms │ 768 │ 5 │ 77 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 184 │ 107.2 ms │ 502.81 µs │ 768 │ 5 │ 77 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 188 │ 107.71 ms │ 2.45 ms │ 768 │ 5 │ 79 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 192 │ 110.16 ms │ 766.97 µs │ 768 │ 5 │ 79 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 194 │ 110.96 ms │ 311.78 µs │ 4×4×16 │ 216×2 │ 29 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5EL ⋯
│ 196 │ 111.28 ms │ 1.77 ms │ 256 │ 284 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 198 │ 113.05 ms │ 81.82 µs │ 4×4 │ 216 │ 30 │ - │ - │ - │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int6 ⋯
│ 200 │ 113.13 ms │ 33.38 µs │ 4×4 │ 216 │ 23 │ - │ - │ - │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645S ⋯
│ 202 │ 113.17 ms │ 847.99 µs │ 256 │ 270 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_ ⋯
│ 204 │ 114.02 ms │ 536.83 µs │ 4×4×16 │ 216×2 │ 33 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS ⋯
│ 206 │ 114.56 ms │ 2.19 ms │ 256 │ 270 │ 72 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeho ⋯
│ 208 │ 116.74 ms │ 558.04 µs │ 4×4×16 │ 216×2 │ 31 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10 ⋯
│ 210 │ 117.31 ms │ 372.57 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 212 │ 117.68 ms │ 378.53 µs │ 4×4×16 │ 216×2 │ 31 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 214 │ 118.06 ms │ 970.36 µs │ 4×4 │ 216 │ 58 │ - │ - │ - │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux ⋯
│ 216 │ 119.04 ms │ 138.5 µs │ - │ - │ - │ - │ 1.055 MiB │ 7.437 GiB/s │ [set device memory] ⋯
│ 218 │ 119.19 ms │ 39.58 µs │ - │ - │ - │ - │ 283.500 KiB │ 6.830 GiB/s │ [set device memory] ⋯
│ 220 │ 119.23 ms │ 146.43 µs │ - │ - │ - │ - │ 1.055 MiB │ 7.034 GiB/s │ [set device memory] ⋯
│ 222 │ 119.38 ms │ 47.04 µs │ - │ - │ - │ - │ 283.500 KiB │ 5.748 GiB/s │ [set device memory] ⋯
│ 224 │ 119.43 ms │ 1.03 ms │ 4×4×16 │ 216×2 │ 40 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 226 │ 120.47 ms │ 1.12 ms │ 4×4×16 │ 216×2 │ 40 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 228 │ 121.59 ms │ 971.93 µs │ 4×4×16 │ 216×2 │ 39 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6 ⋯
│ 230 │ 122.56 ms │ 3.12 ms │ 4×4×16 │ 216×2 │ 62 │ 9.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│ 232 │ 125.69 ms │ 902.2 µs │ 4×4×16 │ 216×2 │ 40 │ 3.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeh ⋯
│ 236 │ 126.98 ms │ 1.95 ms │ 256 │ 203 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 238 │ 128.93 ms │ 447.23 µs │ 256 │ 153 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 240 │ 129.38 ms │ 1.92 ms │ 256 │ 203 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 242 │ 131.31 ms │ 519.48 µs │ 256 │ 203 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 244 │ 131.83 ms │ 162.66 µs │ 256 │ 51 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 246 │ 131.99 ms │ 502.62 µs │ 256 │ 203 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 248 │ 132.5 ms │ 3.16 ms │ 4×4×16 │ 216×2 │ 62 │ 9.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│ 250 │ 135.66 ms │ 549.69 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ ⋯
│ 252 │ 136.22 ms │ 1.45 ms │ 256 │ 284 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 254 │ 137.67 ms │ 1.23 ms │ 4×4×16 │ 216×2 │ 62 │ 3.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 256 │ 138.9 ms │ 427.36 µs │ 4×4×16 │ 216×2 │ 31 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│ 258 │ 139.33 ms │ 1.12 ms │ 256 │ 284 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 260 │ 140.46 ms │ 684.51 µs │ 4×4×16 │ 216×2 │ 32 │ 1024 bytes static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│ 262 │ 141.17 ms │ 7.13 ms │ 256 │ 270 │ 78 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_ ⋯
│ 264 │ 148.3 ms │ 2.96 ms │ 256 │ 284 │ 58 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 268 │ 151.26 ms │ 2.34 ms │ 640 │ 5 │ 92 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 272 │ 153.61 ms │ 656.54 µs │ 640 │ 5 │ 92 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 276 │ 154.27 ms │ 2.31 ms │ 640 │ 5 │ 92 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 280 │ 156.58 ms │ 640.96 µs │ 640 │ 5 │ 92 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 284 │ 157.22 ms │ 1.9 ms │ 768 │ 5 │ 77 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 288 │ 159.13 ms │ 521.73 µs │ 768 │ 5 │ 77 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 292 │ 160.34 ms │ 2.07 ms │ 256 │ 203 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 294 │ 162.41 ms │ 586.27 µs │ 256 │ 204 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 296 │ 163.0 ms │ 2.04 ms │ 256 │ 203 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 298 │ 165.04 ms │ 548.77 µs │ 256 │ 213 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 300 │ 165.6 ms │ 172.19 µs │ 256 │ 54 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 302 │ 165.77 ms │ 529.53 µs │ 256 │ 213 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 306 │ 166.3 ms │ 1.51 ms │ 1024 │ 5 │ 64 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 310 │ 167.81 ms │ 429.05 µs │ 1024 │ 5 │ 64 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 312 │ 168.24 ms │ 318.43 µs │ 4×4×16 │ 216×2 │ 29 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5EL ⋯
│ 314 │ 168.56 ms │ 1.78 ms │ 256 │ 284 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 316 │ 170.34 ms │ 82.21 µs │ 4×4 │ 216 │ 30 │ - │ - │ - │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int6 ⋯
│ 318 │ 170.43 ms │ 33.28 µs │ 4×4 │ 216 │ 23 │ - │ - │ - │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645S ⋯
│ 320 │ 170.46 ms │ 847.83 µs │ 256 │ 270 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_ ⋯
│ 322 │ 171.31 ms │ 539.04 µs │ 4×4×16 │ 216×2 │ 33 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS ⋯
│ 324 │ 171.89 ms │ 1.23 ms │ 256 │ 270 │ 72 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeho ⋯
│ 326 │ 173.12 ms │ 275.04 µs │ 4×4×16 │ 216×2 │ 31 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10 ⋯
│ 328 │ 173.4 ms │ 136.83 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 330 │ 173.54 ms │ 143.68 µs │ 4×4×16 │ 216×2 │ 31 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 332 │ 173.68 ms │ 798.97 µs │ 4×4 │ 216 │ 58 │ - │ - │ - │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux ⋯
│ 334 │ 174.48 ms │ 58.37 µs │ 4×4×16 │ 216×2 │ 21 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 336 │ 174.54 ms │ 443.39 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI13BandMatrixRowILin0ELi1E7AdjointI7Float3210AxisTensorIS2_Li1E5Tuple ⋯
│ 338 │ 174.99 ms │ 366.53 µs │ 256 │ 270 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 340 │ 175.36 ms │ 199.36 µs │ 256 │ 284 │ 37 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 342 │ 175.56 ms │ 295.55 µs │ 256 │ 270 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 344 │ 175.85 ms │ 155.68 µs │ 256 │ 270 │ 32 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 346 │ 176.04 ms │ 408.89 µs │ 256 │ 270 │ 64 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 348 │ 176.45 ms │ 860.19 µs │ 256 │ 284 │ 50 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 350 │ 177.31 ms │ 152.42 µs │ 256 │ 284 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 352 │ 177.46 ms │ 324.35 µs │ 256 │ 284 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 354 │ 177.79 ms │ 384.45 µs │ 256 │ 284 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E ⋯
│ 356 │ 178.17 ms │ 11.71 µs │ - │ - │ - │ - │ 1.055 MiB │ 87.942 GiB/s │ [set device memory] ⋯
│ 358 │ 178.18 ms │ 4.1 µs │ - │ - │ - │ - │ 283.500 KiB │ 66.008 GiB/s │ [set device memory] ⋯
│ 360 │ 178.19 ms │ 245.92 µs │ 256 │ 270 │ 49 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 362 │ 178.44 ms │ 254.37 µs │ 256 │ 270 │ 56 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 364 │ 178.69 ms │ 230.37 µs │ 256 │ 284 │ 38 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 368 │ 178.92 ms │ 209.92 µs │ 640 │ 5 │ 94 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 372 │ 179.13 ms │ 57.73 µs │ 640 │ 5 │ 94 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 374 │ 179.2 ms │ 124.25 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisT ⋯
│ 376 │ 179.33 ms │ 755.26 µs │ 256 │ 284 │ 56 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E ⋯
│ 378 │ 180.08 ms │ 56.38 µs │ 4×4×16 │ 216×2 │ 27 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ ⋯
│ 380 │ 180.14 ms │ 274.69 µs │ 256 │ 284 │ 40 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 382 │ 180.42 ms │ 163.26 µs │ 256 │ 14 │ 47 │ - │ - │ - │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_Li4E13CuDeviceArra ⋯
│ 384 │ 180.58 ms │ 217.63 µs │ 256 │ 284 │ 40 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 386 │ 180.8 ms │ 337.18 µs │ 256 │ 14 │ 43 │ - │ - │ - │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_I10AxisTensorI7Flo ⋯
│ 388 │ 181.14 ms │ 79.55 µs │ 256 │ 270 │ 40 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 390 │ 181.22 ms │ 75.68 µs │ 256 │ 270 │ 40 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 394 │ 181.29 ms │ 166.94 µs │ 768 │ 5 │ 77 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 398 │ 181.46 ms │ 45.02 µs │ 768 │ 5 │ 77 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 402 │ 181.51 ms │ 238.4 µs │ 768 │ 5 │ 79 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 406 │ 181.74 ms │ 71.68 µs │ 768 │ 5 │ 79 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 408 │ 181.82 ms │ 35.14 µs │ 4×4×16 │ 216×2 │ 29 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5EL ⋯
│ 410 │ 181.86 ms │ 165.37 µs │ 256 │ 284 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 412 │ 182.02 ms │ 9.25 µs │ 4×4 │ 216 │ 30 │ - │ - │ - │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int6 ⋯
│ 414 │ 182.03 ms │ 3.74 µs │ 4×4 │ 216 │ 23 │ - │ - │ - │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645S ⋯
│ 416 │ 182.04 ms │ 78.72 µs │ 256 │ 270 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_ ⋯
│ 418 │ 182.12 ms │ 55.39 µs │ 4×4×16 │ 216×2 │ 33 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS ⋯
│ 420 │ 182.17 ms │ 205.06 µs │ 256 │ 270 │ 72 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeho ⋯
│ 422 │ 182.38 ms │ 65.66 µs │ 4×4×16 │ 216×2 │ 31 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10 ⋯
│ 424 │ 182.45 ms │ 36.7 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 426 │ 182.49 ms │ 36.22 µs │ 4×4×16 │ 216×2 │ 31 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 428 │ 182.53 ms │ 120.22 µs │ 4×4 │ 216 │ 58 │ - │ - │ - │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux ⋯
│ 430 │ 182.65 ms │ 11.52 µs │ - │ - │ - │ - │ 1.055 MiB │ 89.407 GiB/s │ [set device memory] ⋯
│ 432 │ 182.68 ms │ 4.29 µs │ - │ - │ - │ - │ 283.500 KiB │ 63.051 GiB/s │ [set device memory] ⋯
│ 434 │ 182.68 ms │ 11.81 µs │ - │ - │ - │ - │ 1.055 MiB │ 87.226 GiB/s │ [set device memory] ⋯
│ 436 │ 182.69 ms │ 4.06 µs │ - │ - │ - │ - │ 283.500 KiB │ 66.526 GiB/s │ [set device memory] ⋯
│ 438 │ 182.7 ms │ 103.29 µs │ 4×4×16 │ 216×2 │ 40 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 440 │ 182.8 ms │ 108.38 µs │ 4×4×16 │ 216×2 │ 40 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 442 │ 182.91 ms │ 97.95 µs │ 4×4×16 │ 216×2 │ 39 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6 ⋯
│ 444 │ 183.01 ms │ 319.49 µs │ 4×4×16 │ 216×2 │ 62 │ 9.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│ 446 │ 183.33 ms │ 89.41 µs │ 4×4×16 │ 216×2 │ 40 │ 3.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeh ⋯
│ 450 │ 183.68 ms │ 192.8 µs │ 256 │ 203 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 452 │ 183.88 ms │ 51.46 µs │ 256 │ 153 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 454 │ 183.93 ms │ 188.48 µs │ 256 │ 203 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 456 │ 184.12 ms │ 53.98 µs │ 256 │ 203 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 458 │ 184.17 ms │ 17.54 µs │ 256 │ 51 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 460 │ 184.19 ms │ 49.98 µs │ 256 │ 203 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 462 │ 184.24 ms │ 320.32 µs │ 4×4×16 │ 216×2 │ 62 │ 9.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│ 464 │ 184.56 ms │ 65.92 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ ⋯
│ 466 │ 184.63 ms │ 133.02 µs │ 256 │ 284 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 468 │ 184.76 ms │ 120.93 µs │ 4×4×16 │ 216×2 │ 62 │ 3.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 470 │ 184.88 ms │ 43.39 µs │ 4×4×16 │ 216×2 │ 31 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│ 472 │ 184.93 ms │ 103.36 µs │ 256 │ 284 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 474 │ 185.03 ms │ 77.57 µs │ 4×4×16 │ 216×2 │ 32 │ 1024 bytes static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│ 476 │ 185.12 ms │ 1.05 ms │ 256 │ 270 │ 78 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_ ⋯
│ 478 │ 186.18 ms │ 281.02 µs │ 256 │ 284 │ 58 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 482 │ 186.46 ms │ 247.36 µs │ 512 │ 5 │ 115 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 486 │ 186.71 ms │ 70.02 µs │ 512 │ 5 │ 115 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 490 │ 186.78 ms │ 240.89 µs │ 512 │ 5 │ 115 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 494 │ 187.02 ms │ 69.02 µs │ 512 │ 5 │ 115 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 498 │ 187.09 ms │ 207.36 µs │ 640 │ 5 │ 92 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 502 │ 187.3 ms │ 58.14 µs │ 640 │ 5 │ 92 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 506 │ 187.55 ms │ 207.23 µs │ 256 │ 203 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 508 │ 187.76 ms │ 66.34 µs │ 256 │ 204 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 510 │ 187.82 ms │ 201.53 µs │ 256 │ 203 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 512 │ 188.03 ms │ 56.67 µs │ 256 │ 213 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 514 │ 188.08 ms │ 18.05 µs │ 256 │ 54 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 516 │ 188.1 ms │ 52.35 µs │ 256 │ 213 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 520 │ 188.16 ms │ 136.42 µs │ 1024 │ 5 │ 64 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 524 │ 188.29 ms │ 38.14 µs │ 1024 │ 5 │ 64 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 526 │ 188.33 ms │ 34.91 µs │ 4×4×16 │ 216×2 │ 29 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5EL ⋯
│ 528 │ 188.37 ms │ 166.53 µs │ 256 │ 284 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 530 │ 188.53 ms │ 9.09 µs │ 4×4 │ 216 │ 30 │ - │ - │ - │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int6 ⋯
│ 532 │ 188.54 ms │ 3.71 µs │ 4×4 │ 216 │ 23 │ - │ - │ - │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645S ⋯
│ 534 │ 188.55 ms │ 78.98 µs │ 256 │ 270 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_ ⋯
│ 536 │ 188.63 ms │ 54.85 µs │ 4×4×16 │ 216×2 │ 33 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS ⋯
│ 538 │ 188.69 ms │ 205.82 µs │ 256 │ 270 │ 72 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeho ⋯
│ 540 │ 188.9 ms │ 65.38 µs │ 4×4×16 │ 216×2 │ 31 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10 ⋯
│ 542 │ 188.96 ms │ 36.93 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 544 │ 189.0 ms │ 36.26 µs │ 4×4×16 │ 216×2 │ 31 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 546 │ 189.04 ms │ 120.96 µs │ 4×4 │ 216 │ 58 │ - │ - │ - │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux ⋯
│ 548 │ 189.16 ms │ 26.02 µs │ 4×4×16 │ 216×2 │ 21 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 550 │ 189.19 ms │ 79.1 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI13BandMatrixRowILin0ELi1E7AdjointI7Float3210AxisTensorIS2_Li1E5Tuple ⋯
│ 552 │ 189.26 ms │ 105.06 µs │ 256 │ 270 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 554 │ 189.37 ms │ 102.17 µs │ 256 │ 284 │ 37 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 556 │ 189.47 ms │ 197.09 µs │ 256 │ 270 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 558 │ 189.67 ms │ 76.22 µs │ 256 │ 270 │ 32 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 560 │ 189.75 ms │ 174.69 µs │ 256 │ 270 │ 64 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 562 │ 189.93 ms │ 501.5 µs │ 256 │ 284 │ 50 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 564 │ 190.43 ms │ 153.44 µs │ 256 │ 284 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 566 │ 190.59 ms │ 306.34 µs │ 256 │ 284 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 568 │ 190.89 ms │ 383.81 µs │ 256 │ 284 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E ⋯
│ 570 │ 191.28 ms │ 11.62 µs │ - │ - │ - │ - │ 1.055 MiB │ 88.669 GiB/s │ [set device memory] ⋯
│ 572 │ 191.29 ms │ 4.03 µs │ - │ - │ - │ - │ 283.500 KiB │ 67.053 GiB/s │ [set device memory] ⋯
│ 574 │ 191.29 ms │ 246.11 µs │ 256 │ 270 │ 49 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 576 │ 191.54 ms │ 253.09 µs │ 256 │ 270 │ 56 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 578 │ 191.8 ms │ 230.02 µs │ 256 │ 284 │ 38 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 582 │ 192.03 ms │ 209.38 µs │ 640 │ 5 │ 94 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 586 │ 192.24 ms │ 58.05 µs │ 640 │ 5 │ 94 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 588 │ 192.3 ms │ 124.13 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisT ⋯
│ 590 │ 192.43 ms │ 755.32 µs │ 256 │ 284 │ 56 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E ⋯
│ 592 │ 193.19 ms │ 56.38 µs │ 4×4×16 │ 216×2 │ 27 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ ⋯
│ 594 │ 193.24 ms │ 271.45 µs │ 256 │ 284 │ 40 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 596 │ 193.51 ms │ 161.37 µs │ 256 │ 14 │ 47 │ - │ - │ - │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_Li4E13CuDeviceArra ⋯
│ 598 │ 193.68 ms │ 219.65 µs │ 256 │ 284 │ 40 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 600 │ 193.9 ms │ 337.25 µs │ 256 │ 14 │ 43 │ - │ - │ - │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_I10AxisTensorI7Flo ⋯
│ 602 │ 194.24 ms │ 79.04 µs │ 256 │ 270 │ 40 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 604 │ 194.32 ms │ 75.58 µs │ 256 │ 270 │ 40 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 608 │ 194.39 ms │ 167.13 µs │ 768 │ 5 │ 77 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 612 │ 194.56 ms │ 44.96 µs │ 768 │ 5 │ 77 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 616 │ 194.6 ms │ 233.44 µs │ 768 │ 5 │ 79 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 620 │ 194.84 ms │ 71.74 µs │ 768 │ 5 │ 79 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 622 │ 194.92 ms │ 34.69 µs │ 4×4×16 │ 216×2 │ 29 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5EL ⋯
│ 624 │ 194.95 ms │ 165.6 µs │ 256 │ 284 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 626 │ 195.12 ms │ 8.96 µs │ 4×4 │ 216 │ 30 │ - │ - │ - │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int6 ⋯
│ 628 │ 195.13 ms │ 3.78 µs │ 4×4 │ 216 │ 23 │ - │ - │ - │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645S ⋯
│ 630 │ 195.13 ms │ 78.56 µs │ 256 │ 270 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_ ⋯
│ 632 │ 195.21 ms │ 55.46 µs │ 4×4×16 │ 216×2 │ 33 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS ⋯
│ 634 │ 195.27 ms │ 205.6 µs │ 256 │ 270 │ 72 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeho ⋯
│ 636 │ 195.48 ms │ 65.02 µs │ 4×4×16 │ 216×2 │ 31 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10 ⋯
│ 638 │ 195.54 ms │ 37.12 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 640 │ 195.58 ms │ 36.16 µs │ 4×4×16 │ 216×2 │ 31 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 642 │ 195.62 ms │ 120.25 µs │ 4×4 │ 216 │ 58 │ - │ - │ - │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux ⋯
│ 644 │ 195.74 ms │ 11.39 µs │ - │ - │ - │ - │ 1.055 MiB │ 90.412 GiB/s │ [set device memory] ⋯
│ 646 │ 195.77 ms │ 4.13 µs │ - │ - │ - │ - │ 283.500 KiB │ 65.494 GiB/s │ [set device memory] ⋯
│ 648 │ 195.77 ms │ 11.94 µs │ - │ - │ - │ - │ 1.055 MiB │ 86.290 GiB/s │ [set device memory] ⋯
│ 650 │ 195.79 ms │ 4.16 µs │ - │ - │ - │ - │ 283.500 KiB │ 64.992 GiB/s │ [set device memory] ⋯
│ 652 │ 195.79 ms │ 102.97 µs │ 4×4×16 │ 216×2 │ 40 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 654 │ 195.89 ms │ 108.61 µs │ 4×4×16 │ 216×2 │ 40 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 656 │ 196.0 ms │ 98.75 µs │ 4×4×16 │ 216×2 │ 39 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6 ⋯
│ 658 │ 196.1 ms │ 316.86 µs │ 4×4×16 │ 216×2 │ 62 │ 9.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│ 660 │ 196.42 ms │ 89.15 µs │ 4×4×16 │ 216×2 │ 40 │ 3.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeh ⋯
│ 664 │ 196.77 ms │ 192.06 µs │ 256 │ 203 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 666 │ 196.96 ms │ 50.56 µs │ 256 │ 153 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 668 │ 197.01 ms │ 189.02 µs │ 256 │ 203 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 670 │ 197.2 ms │ 54.11 µs │ 256 │ 203 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 672 │ 197.26 ms │ 17.79 µs │ 256 │ 51 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 674 │ 197.27 ms │ 49.63 µs │ 256 │ 203 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 676 │ 197.32 ms │ 319.23 µs │ 4×4×16 │ 216×2 │ 62 │ 9.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│ 678 │ 197.64 ms │ 65.47 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ ⋯
│ 680 │ 197.71 ms │ 131.84 µs │ 256 │ 284 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 682 │ 197.84 ms │ 120.54 µs │ 4×4×16 │ 216×2 │ 62 │ 3.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 684 │ 197.96 ms │ 43.07 µs │ 4×4×16 │ 216×2 │ 31 │ 2.000 KiB static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│ 686 │ 198.01 ms │ 103.01 µs │ 256 │ 284 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 688 │ 198.11 ms │ 76.48 µs │ 4×4×16 │ 216×2 │ 32 │ 1024 bytes static │ - │ - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│ 690 │ 198.2 ms │ 1.05 ms │ 256 │ 270 │ 78 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_ ⋯
│ 692 │ 199.25 ms │ 279.9 µs │ 256 │ 284 │ 58 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 696 │ 199.53 ms │ 247.68 µs │ 512 │ 5 │ 115 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 700 │ 199.78 ms │ 70.5 µs │ 512 │ 5 │ 115 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 704 │ 199.85 ms │ 136.38 µs │ 1024 │ 5 │ 64 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 708 │ 199.99 ms │ 38.27 µs │ 1024 │ 5 │ 64 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 712 │ 200.03 ms │ 240.25 µs │ 512 │ 5 │ 115 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 716 │ 200.27 ms │ 68.0 µs │ 512 │ 5 │ 115 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 720 │ 200.34 ms │ 240.42 µs │ 512 │ 5 │ 115 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 724 │ 200.58 ms │ 68.35 µs │ 512 │ 5 │ 115 │ - │ - │ - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 728 │ 200.82 ms │ 206.46 µs │ 256 │ 203 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 730 │ 201.03 ms │ 66.46 µs │ 256 │ 204 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 732 │ 201.1 ms │ 202.65 µs │ 256 │ 203 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 734 │ 201.3 ms │ 56.19 µs │ 256 │ 213 │ 125 │ - │ - │ - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 736 │ 201.36 ms │ 18.18 µs │ 256 │ 54 │ 53 │ - │ - │ - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 738 │ 201.37 ms │ 52.29 µs │ 256 │ 213 │ 117 │ - │ - │ - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 740 │ 201.43 ms │ 34.72 µs │ 4×4×16 │ 216×2 │ 29 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5EL ⋯
│ 742 │ 201.46 ms │ 164.13 µs │ 256 │ 284 │ 48 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 744 │ 201.63 ms │ 9.19 µs │ 4×4 │ 216 │ 30 │ - │ - │ - │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int6 ⋯
│ 746 │ 201.64 ms │ 3.84 µs │ 4×4 │ 216 │ 23 │ - │ - │ - │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645S ⋯
│ 748 │ 201.64 ms │ 78.88 µs │ 256 │ 270 │ 33 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_ ⋯
│ 750 │ 201.72 ms │ 55.14 µs │ 4×4×16 │ 216×2 │ 33 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS ⋯
│ 752 │ 201.78 ms │ 205.53 µs │ 256 │ 270 │ 72 │ - │ - │ - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeho ⋯
│ 754 │ 201.99 ms │ 65.82 µs │ 4×4×16 │ 216×2 │ 31 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10 ⋯
│ 756 │ 202.06 ms │ 36.9 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 758 │ 202.1 ms │ 36.42 µs │ 4×4×16 │ 216×2 │ 31 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 760 │ 202.14 ms │ 120.32 µs │ 4×4 │ 216 │ 58 │ - │ - │ - │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux ⋯
│ 762 │ 202.26 ms │ 5.34 µs │ 4×4 │ 216 │ 19 │ - │ - │ - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
│ 764 │ 202.26 ms │ 4.86 µs │ 4×4 │ 216 │ 21 │ - │ - │ - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
│ 766 │ 202.27 ms │ 31.74 µs │ 4×4×16 │ 216×2 │ 22 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 768 │ 202.3 ms │ 33.63 µs │ 4×4×16 │ 216×2 │ 27 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 770 │ 202.34 ms │ 41.18 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 772 │ 202.38 ms │ 33.06 µs │ 4×4×16 │ 216×2 │ 27 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 774 │ 202.41 ms │ 31.23 µs │ 4×4×16 │ 216×2 │ 22 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 776 │ 202.44 ms │ 32.7 µs │ 4×4×16 │ 216×2 │ 27 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 778 │ 202.48 ms │ 29.6 µs │ 4×4×16 │ 216×2 │ 22 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 780 │ 202.51 ms │ 32.67 µs │ 4×4×16 │ 216×2 │ 27 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 782 │ 202.55 ms │ 30.18 µs │ 4×4×16 │ 216×2 │ 28 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 784 │ 202.58 ms │ 32.96 µs │ 4×4×16 │ 216×2 │ 27 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 786 │ 202.61 ms │ 49.92 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 788 │ 202.66 ms │ 32.67 µs │ 4×4×16 │ 216×2 │ 27 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 790 │ 202.7 ms │ 50.69 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 792 │ 202.75 ms │ 32.96 µs │ 4×4×16 │ 216×2 │ 27 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 794 │ 202.78 ms │ 49.6 µs │ 4×4×16 │ 216×2 │ 32 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 796 │ 202.83 ms │ 33.06 µs │ 4×4×16 │ 216×2 │ 27 │ - │ - │ - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 798 │ 202.88 ms │ 5.47 µs │ 4×4 │ 216 │ 22 │ - │ - │ - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
│ 800 │ 202.88 ms │ 4.51 µs │ 4×4 │ 216 │ 21 │ - │ - │ - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
│ 802 │ 202.89 ms │ 10.3 µs │ 4×4 │ 216 │ 19 │ - │ - │ - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
│ 804 │ 202.9 ms │ 5.44 µs │ 4×4 │ 216 │ 21 │ - │ - │ - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
│ 806 │ 202.9 ms │ 3.65 µs │ 4×4 │ 216 │ 19 │ - │ - │ - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
│ 808 │ 202.91 ms │ 5.47 µs │ 4×4 │ 216 │ 21 │ - │ - │ - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
└─────┴───────────┴───────────┴─────────┴────────┴──────┴───────────────────┴─────────────┴──────────────┴─────────────────────────────────────────────────────────────────────────────────────────────
1 column omitted
[ Info: (#)x entries have been multiplied by corresponding factors in order to compute percentages
┌─────────────────────┬────────────┬──────────┬───────────┬────────────┬───────────┬───────────┬───────────┬──────────────────┐
│ Function │ Memory │ allocs │ Time │ Time │ Time │ Time │ N-samples │ step! percentage │
│ │ estimate │ estimate │ min │ max │ mean │ median │ │ │
├─────────────────────┼────────────┼──────────┼───────────┼────────────┼───────────┼───────────┼───────────┼──────────────────┤
│ Wfact (3x) │ 35.58 KiB │ 1104 │ 6.830 ms │ 57.416 ms │ 38.465 ms │ 56.796 ms │ 10 │ 17.5461 │
│ ldiv! (3x) │ 23.81 KiB │ 1020 │ 14.086 ms │ 57.116 ms │ 52.566 ms │ 56.787 ms │ 10 │ 36.1898 │
│ T_imp! (3x) │ 16.31 KiB │ 864 │ 14.184 ms │ 24.836 ms │ 23.616 ms │ 24.653 ms │ 10 │ 36.4403 │
│ T_exp_T_lim! (4x) │ 51.44 KiB │ 1776 │ 15.526 ms │ 131.409 ms │ 35.957 ms │ 15.799 ms │ 10 │ 39.8879 │
│ lim! (4x) │ 128 bytes │ 8 │ 34.800 μs │ 38.000 μs │ 35.640 μs │ 35.000 μs │ 10 │ 0.0894071 │
│ dss! (4x) │ 27.12 KiB │ 1256 │ 25.866 ms │ 26.830 ms │ 26.155 ms │ 25.979 ms │ 10 │ 66.4551 │
│ post_explicit! (3x) │ 26.09 KiB │ 1083 │ 25.018 ms │ 25.415 ms │ 25.145 ms │ 25.100 ms │ 10 │ 64.2752 │
│ post_implicit! (4x) │ 34.78 KiB │ 1444 │ 32.992 ms │ 33.870 ms │ 33.236 ms │ 33.179 ms │ 10 │ 84.762 │
│ step! (1x) │ 278.23 KiB │ 3962 │ 38.923 ms │ 352.252 ms │ 89.016 ms │ 45.617 ms │ 10 │ 100.0 │
└─────────────────────┴────────────┴──────────┴───────────┴────────────┴───────────┴───────────┴───────────┴──────────────────┘
Test Summary: |Time
Benchmark allocation tests | None 0.0s
This PR adds a benchmark utility. Users can call it with:
CTS.benchmark_step(integrator::CTS.DistributedODEIntegrator, device::ClimaComms.AbstractDevice)
. This is CPU and GPU compatible, and the GPU path also prints output from CUDA's@profile
, which shows information like threads, blocks, and registers used. The output looks like:A good deal of this came from ClimaAtmos' benchmark script, which happened to be pretty general. I added a frequency component, via
n_calls_per_step
, so that users know immediately what the percentage breakdown is per ClimaODEFunction. cc @cmbenguegpu output coming...