CliMA / ClimaTimeSteppers.jl

A CPU- and GPU-friendly package for solving ordinary differential equations
Apache License 2.0
50 stars 5 forks source link

Add benchmark utility extension #277

Closed charleskawczynski closed 6 months ago

charleskawczynski commented 6 months ago

This PR adds a benchmark utility. Users can call it with: CTS.benchmark_step(integrator::CTS.DistributedODEIntegrator, device::ClimaComms.AbstractDevice). This is CPU and GPU compatible, and the GPU path also prints output from CUDA's @profile, which shows information like threads, blocks, and registers used. The output looks like:

[ Info: (#)x entries have been multiplied by corresponding factors in order to compute percentages
┌─────────────────────┬────────────┬──────────┬────────────┬────────────┬────────────┬────────────┬───────────┬──────────────────┐
│ Function            │     Memory │   allocs │       Time │       Time │       Time │       Time │ N-samples │ step! percentage │
│                     │   estimate │ estimate │        min │        max │       mean │     median │           │                  │
├─────────────────────┼────────────┼──────────┼────────────┼────────────┼────────────┼────────────┼───────────┼──────────────────┤
│ Wfact (3x)          │    0 bytes │        0 │  43.508 ms │  59.366 ms │  48.653 ms │  48.098 ms │        10 │          29.4579 │
│ ldiv! (3x)          │    0 bytes │        0 │  11.045 ms │  12.610 ms │  11.510 ms │  11.518 ms │        10 │          7.47847 │
│ T_imp! (3x)         │    0 bytes │        0 │   3.913 ms │   4.719 ms │   4.042 ms │   3.954 ms │        10 │          2.64903 │
│ T_exp_T_lim! (4x)   │    0 bytes │        0 │  50.576 ms │  59.781 ms │  55.508 ms │  56.181 ms │        10 │          34.2435 │
│ lim! (4x)           │    0 bytes │        0 │   0.004 ns │   1.168 μs │ 200.002 ns │ 164.000 ns │        10 │       2.70827e-9 │
│ dss! (4x)           │    0 bytes │        0 │   6.888 ms │  12.564 ms │   8.014 ms │   7.538 ms │        10 │          4.66364 │
│ post_explicit! (3x) │  120 bytes │        9 │   9.724 ms │  15.792 ms │  12.280 ms │  11.730 ms │        10 │          6.58398 │
│ post_implicit! (4x) │  160 bytes │       12 │  12.793 ms │  14.665 ms │  13.484 ms │  13.276 ms │        10 │          8.66139 │
│ step! (1x)          │ 106.22 KiB │      211 │ 147.696 ms │ 341.617 ms │ 189.741 ms │ 169.543 ms │        10 │            100.0 │
└─────────────────────┴────────────┴──────────┴────────────┴────────────┴────────────┴────────────┴───────────┴──────────────────┘

A good deal of this came from ClimaAtmos' benchmark script, which happened to be pretty general. I added a frequency component, via n_calls_per_step, so that users know immediately what the percentage breakdown is per ClimaODEFunction. cc @cmbengue

gpu output coming...

charleskawczynski commented 6 months ago

On the gpu, we get a lot more information from CUDA's @profile:

--------------- Benchmarking Wfact... Profile for Wfact:
Profiler ran for 19.44 ms, capturing 34 events.

Host-side activity: calling CUDA APIs took 154.6 µs (0.80% of the trace)
┌────┬──────────┬─────────┬────────────────┐
│ ID │    Start │    Time │ Name           │
├────┼──────────┼─────────┼────────────────┤
│  2 │  25.6 µs │ 38.7 µs │ cuLaunchKernel │
│  4 │  73.2 µs │  9.9 µs │ cuLaunchKernel │
│  6 │  92.7 µs │ 14.1 µs │ cuLaunchKernel │
│  8 │ 120.1 µs │ 17.7 µs │ cuLaunchKernel │
│ 10 │ 143.3 µs │ 10.5 µs │ cuLaunchKernel │
│ 12 │ 160.5 µs │  9.3 µs │ cuLaunchKernel │
│ 14 │ 181.4 µs │  9.9 µs │ cuLaunchKernel │
│ 16 │ 201.4 µs │ 15.1 µs │ cuLaunchKernel │
│ 18 │ 221.9 µs │  7.9 µs │ cuLaunchKernel │
│ 20 │ 236.1 µs │  9.4 µs │ cuLaunchKernel │
│ 22 │ 252.3 µs │ 10.8 µs │ cuLaunchKernel │
└────┴──────────┴─────────┴────────────────┘

Device-side activity: GPU was busy for 18.78 ms (96.60% of the trace)
┌────┬───────────┬───────────┬─────────┬────────┬──────┬───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ ID │     Start │      Time │ Threads │ Blocks │ Regs │ Name                                                                                                                                         ⋯
├────┼───────────┼───────────┼─────────┼────────┼──────┼───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│  2 │ 627.01 µs │ 233.54 µs │  4×4×16 │  216×2 │   21 │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float32__N__CUDA_Mem_DeviceBuffer__w ⋯
│  4 │ 863.01 µs │ 650.92 µs │  4×4×16 │  216×2 │   32 │ _Z11knl_copyto_5VIJFHI13BandMatrixRowILin0ELi1E7AdjointI7Float3210AxisTensorIS2_Li1E5TupleI17ContravariantAxisI6_1__2_EE6SArrayIS4_ILi2EES2_ ⋯
│  6 │   1.52 ms │   1.12 ms │     256 │    270 │   48 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E7AdjointI7Float3210AxisTensorIS3_Li1E5T ⋯
│  8 │   2.64 ms │   1.11 ms │     256 │    284 │   37 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisTensorI7Float32Li1E5TupleI13Covar ⋯
│ 10 │   3.75 ms │   2.09 ms │     256 │    270 │   48 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E7AdjointI7Float3210AxisTensorIS3_Li1E5T ⋯
│ 12 │   5.85 ms │ 851.88 µs │     256 │    270 │   32 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E7AdjointI7Float3210AxisTensorIS3_Li1E5T ⋯
│ 14 │    6.7 ms │   1.85 ms │     256 │    270 │   64 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E7AdjointI7Float3210AxisTensorIS3_Li1E5T ⋯
│ 16 │   8.56 ms │   3.41 ms │     256 │    284 │   50 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisTensorI7Float32Li1E5TupleI13Covar ⋯
│ 18 │  11.96 ms │   1.65 ms │     256 │    284 │   33 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisTensorI7Float32Li1E5TupleI13Covar ⋯
│ 20 │  13.61 ms │   2.86 ms │     256 │    284 │   48 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisTensorI7Float32Li2E5TupleI13Covar ⋯
│ 22 │  16.48 ms │   2.96 ms │     256 │    284 │   48 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E5TupleI13CovariantAxisI4_3__E17ContravariantAxisI4 ⋯
└────┴───────────┴───────────┴─────────┴────────┴──────┴───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
                                                                                                                                                                                       1 column omitted

--------------- Benchmarking ldiv!... Profile for ldiv!:
Profiler ran for 19.29 ms, capturing 28 events.

Host-side activity: calling CUDA APIs took 113.2 µs (0.59% of the trace)
┌────┬──────────┬─────────┬────────────────┐
│ ID │    Start │    Time │ Name           │
├────┼──────────┼─────────┼────────────────┤
│  2 │  24.6 µs │ 32.4 µs │ cuLaunchKernel │
│  4 │  68.2 µs │ 15.6 µs │ cuLaunchKernel │
│  6 │  90.1 µs │  6.3 µs │ cuLaunchKernel │
│  8 │ 105.3 µs │ 11.2 µs │ cuLaunchKernel │
│ 10 │ 123.6 µs │  9.8 µs │ cuLaunchKernel │
│ 12 │ 140.1 µs │ 14.4 µs │ cuLaunchKernel │
│ 14 │ 160.4 µs │  8.6 µs │ cuLaunchKernel │
│ 16 │ 174.9 µs │  8.4 µs │ cuLaunchKernel │
│ 18 │ 186.2 µs │  5.3 µs │ cuLaunchKernel │
└────┴──────────┴─────────┴────────────────┘

Device-side activity: GPU was busy for 18.7 ms (96.97% of the trace)
┌────┬───────────┬───────────┬─────────┬────────┬──────┬───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ ID │     Start │      Time │ Threads │ Blocks │ Regs │ Name                                                                                                                                         ⋯
├────┼───────────┼───────────┼─────────┼────────┼──────┼───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│  2 │ 556.75 µs │   1.04 ms │  4×4×16 │  216×2 │   32 │ _Z11knl_copyto_5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisTensorI7Float32Li2E5TupleI13CovariantAxisI4_3__E17C ⋯
│  4 │    1.6 ms │   4.99 ms │     256 │    284 │   56 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E5TupleI13CovariantAxisI4_3__E17ContravariantAxisI4 ⋯
│  6 │    6.6 ms │ 485.91 µs │  4×4×16 │  216×2 │   27 │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ILi2EES1_Li1ELi2EEELi4E13CuDeviceArrayIS1_Li5ELi1E ⋯
│  8 │   7.09 ms │   2.99 ms │     256 │    284 │   40 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_3__EE6SArrayIS3_ILi1EES2_Li1ELi1EEELi4E8SubArrayIS ⋯
│ 10 │  10.08 ms │   1.64 ms │     256 │     14 │   47 │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_Li4E13CuDeviceArrayI7Float32Li5ELi1EEE16PlaceholderSpaceEES0_IS1_IS2 ⋯
│ 12 │  11.72 ms │   2.39 ms │     256 │    284 │   40 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_3__EE6SArrayIS3_ILi1EES2_Li1ELi1EEELi4E8SubArrayIS ⋯
│ 14 │  14.11 ms │   3.46 ms │     256 │     14 │   43 │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_I10AxisTensorI7Float32Li1ES0_I13CovariantAxisI4_3__EE6SArrayIS0_ILi1 ⋯
│ 16 │  17.57 ms │ 847.28 µs │     256 │    270 │   40 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li5ELi1EE5TupleI5SliceI5OneToI5Int64EES5_IS6_IS7_EES ⋯
│ 18 │  18.43 ms │ 858.03 µs │     256 │    270 │   40 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li5ELi1EE5TupleI5SliceI5OneToI5Int64EES5_IS6_IS7_EES ⋯
└────┴───────────┴───────────┴─────────┴────────┴──────┴───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
                                                                                                                                                                                       1 column omitted

--------------- Benchmarking T_imp!... Profile for T_imp!:
Profiler ran for 8.51 ms, capturing 16 events.

Host-side activity: calling CUDA APIs took 78.7 µs (0.92% of the trace)
┌────┬──────────┬─────────┬──────────────────┐
│ ID │    Start │    Time │ Name             │
├────┼──────────┼─────────┼──────────────────┤
│  2 │   2.7 µs │ 32.1 µs │ cuMemsetD32Async │
│  4 │  35.8 µs │  4.4 µs │ cuMemsetD32Async │
│  6 │  66.9 µs │ 20.0 µs │ cuLaunchKernel   │
│  8 │  94.7 µs │ 10.2 µs │ cuLaunchKernel   │
│ 10 │ 114.5 µs │ 11.5 µs │ cuLaunchKernel   │
└────┴──────────┴─────────┴──────────────────┘

Device-side activity: GPU was busy for 8.02 ms (94.28% of the trace)
┌────┬───────────┬───────────┬─────────┬────────┬──────┬─────────────┬─────────────┬───────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ ID │     Start │      Time │ Threads │ Blocks │ Regs │        Size │  Throughput │ Name                                                                                                             ⋯
├────┼───────────┼───────────┼─────────┼────────┼──────┼─────────────┼─────────────┼───────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│  2 │ 470.45 µs │ 140.03 µs │       - │      - │    - │   1.055 MiB │ 7.355 GiB/s │ [set device memory]                                                                                              ⋯
│  4 │ 612.82 µs │  45.57 µs │       - │      - │    - │ 283.500 KiB │ 5.933 GiB/s │ [set device memory]                                                                                              ⋯
│  6 │ 660.79 µs │   2.61 ms │     256 │    270 │   49 │           - │           - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li5ELi1EE5TupleI5SliceI5 ⋯
│  8 │   3.27 ms │   2.69 ms │     256 │    270 │   56 │           - │           - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li5ELi1EE5TupleI5SliceI5 ⋯
│ 10 │   5.97 ms │   2.53 ms │     256 │    284 │   38 │           - │           - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_3__EE6SArrayIS3_ILi1EE ⋯
└────┴───────────┴───────────┴─────────┴────────┴──────┴─────────────┴─────────────┴───────────────────────────────────────────────────────────────────────────────────────────────────────────────────
                                                                                                                                                                                       1 column omitted

--------------- Benchmarking T_exp_T_lim!... Profile for T_exp_T_lim!:
Profiler ran for 34.62 ms, capturing 75 events.

Host-side activity: calling CUDA APIs took 9.44 ms (27.27% of the trace)
┌────┬─────────┬──────────┬─────────────────────┐
│ ID │   Start │     Time │ Name                │
├────┼─────────┼──────────┼─────────────────────┤
│  2 │  3.3 µs │ 989.1 µs │ cuMemsetD32Async    │
│  4 │ 1.01 ms │   7.9 µs │ cuMemsetD32Async    │
│  6 │ 1.04 ms │   3.2 µs │ cuMemsetD32Async    │
│  8 │ 1.04 ms │   2.6 µs │ cuMemsetD32Async    │
│ 10 │ 1.09 ms │  30.1 µs │ cuLaunchKernel      │
│ 12 │ 1.13 ms │  12.8 µs │ cuLaunchKernel      │
│ 14 │ 1.15 ms │  26.3 µs │ cuLaunchKernel      │
│ 16 │ 1.18 ms │   8.7 µs │ cuLaunchKernel      │
│ 18 │ 1.19 ms │  12.1 µs │ cuLaunchKernel      │
│ 20 │ 1.21 ms │  8.21 ms │ cuStreamSynchronize │
│ 22 │ 9.43 ms │   8.9 µs │ cuLaunchKernel      │
│ 24 │ 9.45 ms │   5.9 µs │ cuLaunchKernel      │
│ 26 │ 9.46 ms │   6.7 µs │ cuLaunchKernel      │
│ 28 │ 9.47 ms │   3.7 µs │ cuLaunchKernel      │
│ 30 │ 9.48 ms │   3.0 µs │ cuLaunchKernel      │
│ 32 │ 9.48 ms │   3.7 µs │ cuLaunchKernel      │
│ 34 │ 9.49 ms │  10.9 µs │ cuLaunchKernel      │
│ 36 │ 9.51 ms │   7.4 µs │ cuLaunchKernel      │
│ 38 │ 9.52 ms │  10.7 µs │ cuLaunchKernel      │
│ 40 │ 9.54 ms │   9.3 µs │ cuLaunchKernel      │
│ 42 │ 9.56 ms │   7.4 µs │ cuLaunchKernel      │
│ 44 │ 9.57 ms │   7.8 µs │ cuLaunchKernel      │
│ 46 │ 9.58 ms │  17.5 µs │ cuLaunchKernel      │
│ 48 │ 9.61 ms │  17.3 µs │ cuLaunchKernel      │
│ 50 │ 9.63 ms │  14.0 µs │ cuLaunchKernel      │
└────┴─────────┴──────────┴─────────────────────┘

Device-side activity: GPU was busy for 32.77 ms (94.67% of the trace)
┌────┬──────────┬───────────┬─────────┬────────┬──────┬───────────────────┬─────────────┬─────────────┬────────────────────────────────────────────────────────────────────────────────────────────────
│ ID │    Start │      Time │ Threads │ Blocks │ Regs │        Shared Mem │        Size │  Throughput │ Name                                                                                          ⋯
├────┼──────────┼───────────┼─────────┼────────┼──────┼───────────────────┼─────────────┼─────────────┼────────────────────────────────────────────────────────────────────────────────────────────────
│  2 │  1.52 ms │ 135.55 µs │       - │      - │    - │                 - │   1.055 MiB │ 7.598 GiB/s │ [set device memory]                                                                           ⋯
│  4 │  1.66 ms │  44.99 µs │       - │      - │    - │                 - │ 283.500 KiB │ 6.009 GiB/s │ [set device memory]                                                                           ⋯
│  6 │  1.71 ms │  147.2 µs │       - │      - │    - │                 - │   1.055 MiB │ 6.997 GiB/s │ [set device memory]                                                                           ⋯
│  8 │  1.86 ms │  44.03 µs │       - │      - │    - │                 - │ 283.500 KiB │ 6.140 GiB/s │ [set device memory]                                                                           ⋯
│ 10 │   1.9 ms │   1.08 ms │  4×4×16 │  216×2 │   40 │  2.000 KiB static │           - │           - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li5E ⋯
│ 12 │  2.99 ms │   1.17 ms │  4×4×16 │  216×2 │   40 │  2.000 KiB static │           - │           - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li5E ⋯
│ 14 │  4.16 ms │   1.01 ms │  4×4×16 │  216×2 │   39 │  2.000 KiB static │           - │           - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1_ ⋯
│ 16 │  5.18 ms │   3.34 ms │  4×4×16 │  216×2 │   62 │  9.000 KiB static │           - │           - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_1_ ⋯
│ 18 │  8.52 ms │ 898.49 µs │  4×4×16 │  216×2 │   40 │  3.000 KiB static │           - │           - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placehold ⋯
│ 22 │  9.65 ms │   1.94 ms │     256 │    203 │  125 │                 - │           - │           - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES_I ⋯
│ 24 │  11.6 ms │ 446.56 µs │     256 │    153 │   53 │                 - │           - │           - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_Li1E ⋯
│ 26 │ 12.05 ms │   1.93 ms │     256 │    203 │  117 │                 - │           - │           - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES ⋯
│ 28 │ 13.98 ms │ 521.25 µs │     256 │    203 │  125 │                 - │           - │           - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES_I ⋯
│ 30 │  14.5 ms │ 163.13 µs │     256 │     51 │   53 │                 - │           - │           - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_Li1E ⋯
│ 32 │ 14.67 ms │ 503.17 µs │     256 │    203 │  117 │                 - │           - │           - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES ⋯
│ 34 │ 15.17 ms │   3.37 ms │  4×4×16 │  216×2 │   62 │  9.000 KiB static │           - │           - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_1_ ⋯
│ 36 │ 18.55 ms │  552.0 µs │  4×4×16 │  216×2 │   32 │                 - │           - │           - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ILi ⋯
│ 38 │  19.1 ms │    1.5 ms │     256 │    284 │   33 │                 - │           - │           - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_3__ ⋯
│ 40 │  20.6 ms │   1.23 ms │  4×4×16 │  216×2 │   62 │  3.000 KiB static │           - │           - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li5E ⋯
│ 42 │ 21.84 ms │ 424.16 µs │  4×4×16 │  216×2 │   31 │  2.000 KiB static │           - │           - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI ⋯
│ 44 │ 22.27 ms │   1.11 ms │     256 │    284 │   33 │                 - │           - │           - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI6 ⋯
│ 46 │ 23.39 ms │ 687.04 µs │  4×4×16 │  216×2 │   32 │ 1024 bytes static │           - │           - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI ⋯
│ 48 │  24.1 ms │   7.48 ms │     256 │    270 │   78 │                 - │           - │           - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__ ⋯
│ 50 │ 31.58 ms │   3.03 ms │     256 │    284 │   58 │                 - │           - │           - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_3__ ⋯
└────┴──────────┴───────────┴─────────┴────────┴──────┴───────────────────┴─────────────┴─────────────┴────────────────────────────────────────────────────────────────────────────────────────────────
                                                                                                                                                                                       1 column omitted

--------------- Benchmarking lim!... Profile for lim!:
Profiler ran for 2.1 µs, capturing 1 events.

No host-side activity was recorded.

No device-side activity was recorded.

--------------- Benchmarking dss!... Profile for dss!:
Profiler ran for 8.12 ms, capturing 21 events.

Host-side activity: calling CUDA APIs took 1.53 ms (18.78% of the trace)
┌────┬──────────┬─────────┬─────────────────────┐
│ ID │    Start │    Time │ Name                │
├────┼──────────┼─────────┼─────────────────────┤
│  2 │  10.7 µs │ 99.9 µs │ cuStreamSynchronize │
│  4 │ 185.6 µs │ 1.28 ms │ cuLaunchKernel      │
│  6 │  1.52 ms │ 34.4 µs │ cuLaunchKernel      │
│  8 │   1.6 ms │ 33.6 µs │ cuLaunchKernel      │
│ 10 │  1.67 ms │ 25.8 µs │ cuLaunchKernel      │
│ 12 │  1.71 ms │ 20.8 µs │ cuLaunchKernel      │
│ 14 │  1.76 ms │ 29.3 µs │ cuLaunchKernel      │
└────┴──────────┴─────────┴─────────────────────┘

Device-side activity: GPU was busy for 5.92 ms (72.86% of the trace)
┌────┬─────────┬───────────┬─────────┬────────┬──────┬─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ ID │   Start │      Time │ Threads │ Blocks │ Regs │ Name                                                                                                                                           ⋯
├────┼─────────┼───────────┼─────────┼────────┼──────┼─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│  4 │ 2.18 ms │   2.04 ms │     256 │    203 │  125 │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES_IS0_Li5ELi1EE5TupleI5SliceI5OneToI5Int64EES3_IS4_I ⋯
│  6 │ 4.22 ms │ 589.25 µs │     256 │    204 │   53 │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_Li1ELi1EES_IS1_IS2_S2_S2_S2_4BoolELi1ELi1EE11Perimete ⋯
│  8 │ 4.81 ms │   2.04 ms │     256 │    203 │  117 │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES_IS0_Li5ELi1EE5TupleI5SliceI5OneToI5Int64EES3_IS4 ⋯
│ 10 │ 6.86 ms │ 546.81 µs │     256 │    213 │  125 │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES_IS0_Li5ELi1EE5TupleI5SliceI5OneToI5Int64EES3_IS4_I ⋯
│ 12 │ 7.41 ms │ 169.09 µs │     256 │     54 │   53 │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_Li1ELi1EES_IS1_IS2_S2_S2_S2_4BoolELi1ELi1EE11Perimete ⋯
│ 14 │ 7.58 ms │ 529.57 µs │     256 │    213 │  117 │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5ES_IS0_Li5ELi1EE5TupleI5SliceI5OneToI5Int64EES3_IS4 ⋯
└────┴─────────┴───────────┴─────────┴────────┴──────┴─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
                                                                                                                                                                                       1 column omitted

--------------- Benchmarking post_explicit!... Profile for post_explicit!:
Profiler ran for 10.21 ms, capturing 34 events.

Host-side activity: calling CUDA APIs took 1.49 ms (14.64% of the trace)
┌────┬─────────┬──────────┬────────────────┐
│ ID │   Start │     Time │ Name           │
├────┼─────────┼──────────┼────────────────┤
│  2 │ 39.5 µs │ 916.5 µs │ cuLaunchKernel │
│  4 │ 1.02 ms │  67.7 µs │ cuLaunchKernel │
│  6 │ 1.11 ms │  23.2 µs │ cuLaunchKernel │
│  8 │ 1.15 ms │  16.6 µs │ cuLaunchKernel │
│ 10 │ 1.19 ms │  27.8 µs │ cuLaunchKernel │
│ 12 │ 1.23 ms │  17.9 µs │ cuLaunchKernel │
│ 14 │ 1.27 ms │  71.0 µs │ cuLaunchKernel │
│ 16 │ 1.37 ms │  17.5 µs │ cuLaunchKernel │
│ 18 │ 1.39 ms │  12.6 µs │ cuLaunchKernel │
│ 20 │ 1.42 ms │ 275.4 µs │ cuLaunchKernel │
│ 22 │ 1.72 ms │  43.4 µs │ cuLaunchKernel │
└────┴─────────┴──────────┴────────────────┘

Device-side activity: GPU was busy for 8.07 ms (78.99% of the trace)
┌────┬─────────┬───────────┬─────────┬────────┬──────┬─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ ID │   Start │      Time │ Threads │ Blocks │ Regs │ Name                                                                                                                                           ⋯
├────┼─────────┼───────────┼─────────┼────────┼──────┼─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│  2 │ 2.11 ms │ 311.26 µs │  4×4×16 │  216×2 │   29 │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float3 ⋯
│  4 │ 2.42 ms │   1.77 ms │     256 │    284 │   48 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS3_ILi1EES2_Li1ELi1EEELi4E13CuDevic ⋯
│  6 │  4.2 ms │  81.95 µs │     4×4 │    216 │   30 │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645SliceI5OneToIS4_EES5_IS6_IS4_EE9UnitRangeIS4_ES5_I ⋯
│  8 │ 4.29 ms │  33.47 µs │     4×4 │    216 │   23 │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645SliceI5OneToIS4_EES5_IS6_IS4_EE9UnitRangeIS4_ES5_IS6_ ⋯
│ 10 │ 4.32 ms │  847.2 µs │     256 │    270 │   33 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_1__2__3_EE6SArrayIS3_ILi3EES2_Li1ELi3EEELi4E13CuDevi ⋯
│ 12 │ 5.17 ms │ 538.14 µs │  4×4×16 │  216×2 │   33 │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS2_ILi1EES1_Li1ELi1EEELi4E13CuDeviceArrayIS1_Li5ELi1E ⋯
│ 14 │ 5.71 ms │   2.19 ms │     256 │    270 │   72 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16PlaceholderSpaceE11BroadcastedI22CUDAColumnStencilStyleS3_4 ⋯
│ 16 │  7.9 ms │  556.9 µs │  4×4×16 │  216×2 │   31 │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float32__N__CUDA_Mem_Device ⋯
│ 18 │ 8.46 ms │ 371.55 µs │  4×4×16 │  216×2 │   32 │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float32__N__CUDA_Mem_DeviceBuffer__whe ⋯
│ 20 │ 8.84 ms │  380.7 µs │  4×4×16 │  216×2 │   31 │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float32__N__CUDA_Mem_DeviceBuffer__whe ⋯
│ 22 │ 9.22 ms │ 982.65 µs │     4×4 │    216 │   58 │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux_u______flux_h_tot_5TupleI8PhaseDryI7Float32ES3_S3_S ⋯
└────┴─────────┴───────────┴─────────┴────────┴──────┴─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
                                                                                                                                                                                       1 column omitted

--------------- Benchmarking post_implicit!... Profile for post_implicit!:
Profiler ran for 9.33 ms, capturing 34 events.

Host-side activity: calling CUDA APIs took 815.5 µs (8.74% of the trace)
┌────┬──────────┬──────────┬────────────────┐
│ ID │    Start │     Time │ Name           │
├────┼──────────┼──────────┼────────────────┤
│  2 │  27.4 µs │ 717.9 µs │ cuLaunchKernel │
│  4 │ 775.0 µs │  15.3 µs │ cuLaunchKernel │
│  6 │ 799.4 µs │   7.4 µs │ cuLaunchKernel │
│  8 │ 814.2 µs │   6.2 µs │ cuLaunchKernel │
│ 10 │ 828.9 µs │  10.9 µs │ cuLaunchKernel │
│ 12 │ 847.3 µs │   7.8 µs │ cuLaunchKernel │
│ 14 │ 863.8 µs │  16.4 µs │ cuLaunchKernel │
│ 16 │ 889.2 µs │   7.0 µs │ cuLaunchKernel │
│ 18 │ 903.0 µs │   5.4 µs │ cuLaunchKernel │
│ 20 │ 914.7 µs │   6.0 µs │ cuLaunchKernel │
│ 22 │ 930.8 µs │  13.2 µs │ cuLaunchKernel │
└────┴──────────┴──────────┴────────────────┘

Device-side activity: GPU was busy for 8.05 ms (86.30% of the trace)
┌────┬─────────┬───────────┬─────────┬────────┬──────┬─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ ID │   Start │      Time │ Threads │ Blocks │ Regs │ Name                                                                                                                                           ⋯
├────┼─────────┼───────────┼─────────┼────────┼──────┼─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│  2 │ 1.21 ms │ 313.57 µs │  4×4×16 │  216×2 │   29 │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float3 ⋯
│  4 │ 1.52 ms │   1.77 ms │     256 │    284 │   48 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS3_ILi1EES2_Li1ELi1EEELi4E13CuDevic ⋯
│  6 │ 3.29 ms │  81.25 µs │     4×4 │    216 │   30 │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645SliceI5OneToIS4_EES5_IS6_IS4_EE9UnitRangeIS4_ES5_I ⋯
│  8 │ 3.38 ms │  33.57 µs │     4×4 │    216 │   23 │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645SliceI5OneToIS4_EES5_IS6_IS4_EE9UnitRangeIS4_ES5_IS6_ ⋯
│ 10 │ 3.41 ms │ 846.78 µs │     256 │    270 │   33 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_1__2__3_EE6SArrayIS3_ILi3EES2_Li1ELi3EEELi4E13CuDevi ⋯
│ 12 │ 4.26 ms │  536.0 µs │  4×4×16 │  216×2 │   33 │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS2_ILi1EES1_Li1ELi1EEELi4E13CuDeviceArrayIS1_Li5ELi1E ⋯
│ 14 │  4.8 ms │   2.19 ms │     256 │    270 │   72 │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16PlaceholderSpaceE11BroadcastedI22CUDAColumnStencilStyleS3_4 ⋯
│ 16 │ 6.99 ms │ 557.25 µs │  4×4×16 │  216×2 │   31 │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float32__N__CUDA_Mem_Device ⋯
│ 18 │ 7.55 ms │ 373.82 µs │  4×4×16 │  216×2 │   32 │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float32__N__CUDA_Mem_DeviceBuffer__whe ⋯
│ 20 │ 7.93 ms │ 378.62 µs │  4×4×16 │  216×2 │   31 │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleILi4E50CuArray_Float32__N__CUDA_Mem_DeviceBuffer__whe ⋯
│ 22 │ 8.31 ms │ 975.29 µs │     4×4 │    216 │   58 │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux_u______flux_h_tot_5TupleI8PhaseDryI7Float32ES3_S3_S ⋯
└────┴─────────┴───────────┴─────────┴────────┴──────┴─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
                                                                                                                                                                                       1 column omitted

--------------- Benchmarking step!...[ Info: Progress: Completed first step
┌ Info: Progress
│   simulation_time = "30 seconds"
│   n_steps_completed = 3
│   wall_time_per_step = "30 milliseconds, 666 microseconds"
│   wall_time_total = "11 seconds, 40 milliseconds"
│   wall_time_remaining = "10 seconds, 948 milliseconds"
│   wall_time_spent = "92 milliseconds, 8 nanoseconds"
│   percent_complete = "0.8%"
│   sypd = 0.893
│   date_now = 2024-05-02T15:08:59.358
└   estimated_finish_date = 2024-05-02T15:09:10.289
┌ Info: Progress
│   simulation_time = "50 seconds"
│   n_steps_completed = 5
│   wall_time_per_step = "118 milliseconds, 799 microseconds"
│   wall_time_total = "42 seconds, 767 milliseconds"
│   wall_time_remaining = "42 seconds, 173 milliseconds"
│   wall_time_spent = "593 milliseconds, 999 microseconds"
│   percent_complete = "1.4%"
│   sypd = 0.231
│   date_now = 2024-05-02T15:08:59.662
└   estimated_finish_date = 2024-05-02T15:09:41.830
┌ Info: Progress
│   simulation_time = "1 minute, 30 seconds"
│   n_steps_completed = 9
│   wall_time_per_step = "86 milliseconds, 222 microseconds"
│   wall_time_total = "31 seconds, 40 milliseconds"
│   wall_time_remaining = "30 seconds, 264 milliseconds"
│   wall_time_spent = "776 milliseconds, 23 nanoseconds"
│   percent_complete = "2.5%"
│   sypd = 0.318
│   date_now = 2024-05-02T15:08:59.877
└   estimated_finish_date = 2024-05-02T15:09:30.141
 Profile for step!:
Profiler ran for 202.94 ms, capturing 1155 events.

Host-side activity: calling CUDA APIs took 198.29 ms (97.71% of the trace)
┌─────┬───────────┬──────────┬─────────────────────┐
│  ID │     Start │     Time │ Name                │
├─────┼───────────┼──────────┼─────────────────────┤
│   4 │   39.7 µs │ 702.1 µs │ cuLaunchKernel      │
│   8 │  760.8 µs │   6.6 µs │ cuLaunchKernel      │
│  10 │  771.0 µs │  10.8 µs │ cuMemsetD32Async    │
│  12 │  782.4 µs │   3.1 µs │ cuMemsetD32Async    │
│  14 │  786.7 µs │   3.0 µs │ cuMemsetD32Async    │
│  16 │  790.3 µs │   2.4 µs │ cuMemsetD32Async    │
│  18 │  802.5 µs │   7.3 µs │ cuLaunchKernel      │
│  20 │  815.1 µs │   6.6 µs │ cuLaunchKernel      │
│  22 │  828.7 µs │   8.1 µs │ cuLaunchKernel      │
│  24 │  843.0 µs │   6.6 µs │ cuLaunchKernel      │
│  26 │  854.6 µs │   5.8 µs │ cuLaunchKernel      │
│  28 │  863.1 µs │  9.77 ms │ cuStreamSynchronize │
│  30 │  10.66 ms │  16.7 µs │ cuLaunchKernel      │
│  32 │  10.68 ms │   5.3 µs │ cuLaunchKernel      │
│  34 │  10.69 ms │   5.2 µs │ cuLaunchKernel      │
│  36 │   10.7 ms │   3.8 µs │ cuLaunchKernel      │
│  38 │  10.71 ms │   3.0 µs │ cuLaunchKernel      │
│  40 │  10.71 ms │   3.6 µs │ cuLaunchKernel      │
│  42 │  10.72 ms │   7.0 µs │ cuLaunchKernel      │
│  44 │  10.74 ms │  11.3 µs │ cuLaunchKernel      │
│  46 │  10.76 ms │   8.0 µs │ cuLaunchKernel      │
│  48 │  10.77 ms │   6.0 µs │ cuLaunchKernel      │
│  50 │  10.78 ms │   5.6 µs │ cuLaunchKernel      │
│  52 │  10.79 ms │   5.6 µs │ cuLaunchKernel      │
│  54 │  10.81 ms │  38.3 µs │ cuLaunchKernel      │
│  56 │  10.85 ms │  11.4 µs │ cuLaunchKernel      │
│  58 │  10.87 ms │   7.8 µs │ cuLaunchKernel      │
│  62 │  10.91 ms │   6.1 µs │ cuLaunchKernel      │
│  66 │  10.92 ms │   3.6 µs │ cuLaunchKernel      │
│  70 │  10.94 ms │   3.4 µs │ cuLaunchKernel      │
│  74 │  10.95 ms │   3.3 µs │ cuLaunchKernel      │
│  76 │  10.95 ms │ 29.14 ms │ cuStreamSynchronize │
│  78 │  40.12 ms │  32.1 µs │ cuLaunchKernel      │
│  80 │  40.17 ms │   9.0 µs │ cuLaunchKernel      │
│  82 │  40.19 ms │  26.7 µs │ cuLaunchKernel      │
│  84 │  40.22 ms │   6.7 µs │ cuLaunchKernel      │
│  86 │  40.23 ms │   5.2 µs │ cuLaunchKernel      │
│  88 │  40.26 ms │   5.7 µs │ cuLaunchKernel      │
│  92 │  40.29 ms │   6.8 µs │ cuLaunchKernel      │
│  96 │   40.3 ms │   7.7 µs │ cuLaunchKernel      │
│  98 │  40.32 ms │   7.8 µs │ cuLaunchKernel      │
│ 100 │  40.34 ms │   9.9 µs │ cuLaunchKernel      │
│ 102 │  40.36 ms │   7.2 µs │ cuLaunchKernel      │
│ 104 │  40.37 ms │   6.2 µs │ cuLaunchKernel      │
│ 106 │  40.39 ms │  10.4 µs │ cuLaunchKernel      │
│ 108 │  40.41 ms │  53.1 µs │ cuLaunchKernel      │
│ 110 │  40.47 ms │  17.3 µs │ cuLaunchKernel      │
│ 112 │   40.5 ms │   7.3 µs │ cuLaunchKernel      │
│ 114 │  40.51 ms │   6.0 µs │ cuLaunchKernel      │
│ 116 │  40.53 ms │   7.3 µs │ cuLaunchKernel      │
│ 118 │  40.55 ms │  22.0 µs │ cuLaunchKernel      │
│ 120 │  40.59 ms │   8.3 µs │ cuLaunchKernel      │
│ 122 │  40.61 ms │  20.9 µs │ cuLaunchKernel      │
│ 124 │  40.64 ms │  12.1 µs │ cuLaunchKernel      │
│ 126 │  40.65 ms │   9.2 µs │ cuLaunchKernel      │
│ 128 │  40.67 ms │   9.5 µs │ cuLaunchKernel      │
│ 130 │  40.69 ms │  19.6 µs │ cuLaunchKernel      │
│ 132 │  40.74 ms │  13.3 µs │ cuLaunchKernel      │
│ 134 │  40.78 ms │  13.7 µs │ cuLaunchKernel      │
│ 136 │  40.81 ms │   8.6 µs │ cuLaunchKernel      │
│ 138 │  40.82 ms │  10.2 µs │ cuLaunchKernel      │
│ 140 │  40.84 ms │  10.0 µs │ cuLaunchKernel      │
│ 142 │  40.86 ms │  12.8 µs │ cuMemsetD32Async    │
│ 144 │  40.87 ms │   4.7 µs │ cuMemsetD32Async    │
│ 146 │  40.88 ms │  11.9 µs │ cuLaunchKernel      │
│ 148 │  40.91 ms │  11.5 µs │ cuLaunchKernel      │
│ 150 │  40.93 ms │  11.7 µs │ cuLaunchKernel      │
│ 154 │  40.96 ms │   9.2 µs │ cuLaunchKernel      │
│ 158 │  40.97 ms │  15.7 µs │ cuLaunchKernel      │
│ 160 │  41.02 ms │   7.6 µs │ cuLaunchKernel      │
│ 162 │  41.04 ms │  24.7 µs │ cuLaunchKernel      │
│ 164 │  41.07 ms │   7.1 µs │ cuLaunchKernel      │
│ 166 │  41.09 ms │  10.6 µs │ cuLaunchKernel      │
│ 168 │   41.1 ms │   7.4 µs │ cuLaunchKernel      │
│ 170 │  41.12 ms │   8.9 µs │ cuLaunchKernel      │
│ 172 │  41.14 ms │   8.2 µs │ cuLaunchKernel      │
│ 174 │  41.15 ms │   8.7 µs │ cuLaunchKernel      │
│ 176 │  41.17 ms │   9.0 µs │ cuLaunchKernel      │
│ 180 │  41.19 ms │  27.6 µs │ cuLaunchKernel      │
│ 184 │  41.23 ms │   5.6 µs │ cuLaunchKernel      │
│ 188 │  41.26 ms │   8.4 µs │ cuLaunchKernel      │
│ 192 │  41.28 ms │  14.0 µs │ cuLaunchKernel      │
│ 194 │   41.3 ms │   6.7 µs │ cuLaunchKernel      │
│ 196 │  41.31 ms │  10.3 µs │ cuLaunchKernel      │
│ 198 │  41.33 ms │   7.3 µs │ cuLaunchKernel      │
│ 200 │  41.34 ms │   5.3 µs │ cuLaunchKernel      │
│ 202 │  41.35 ms │   9.0 µs │ cuLaunchKernel      │
│ 204 │  41.37 ms │   6.5 µs │ cuLaunchKernel      │
│ 206 │  41.38 ms │  15.0 µs │ cuLaunchKernel      │
│ 208 │   41.4 ms │   6.0 µs │ cuLaunchKernel      │
│ 210 │  41.41 ms │   5.3 µs │ cuLaunchKernel      │
│ 212 │  41.42 ms │   5.8 µs │ cuLaunchKernel      │
│ 214 │  41.43 ms │  11.7 µs │ cuLaunchKernel      │
│ 216 │  41.45 ms │  19.4 µs │ cuMemsetD32Async    │
│ 218 │  41.47 ms │  24.2 µs │ cuMemsetD32Async    │
│ 220 │   41.5 ms │   4.8 µs │ cuMemsetD32Async    │
│ 222 │  41.51 ms │   4.3 µs │ cuMemsetD32Async    │
│ 224 │  41.52 ms │   9.1 µs │ cuLaunchKernel      │
│ 226 │  41.54 ms │   9.0 µs │ cuLaunchKernel      │
│ 228 │  41.56 ms │  10.6 µs │ cuLaunchKernel      │
│ 230 │  41.58 ms │   9.1 µs │ cuLaunchKernel      │
│ 232 │  41.59 ms │   8.7 µs │ cuLaunchKernel      │
│ 234 │  41.61 ms │ 84.99 ms │ cuStreamSynchronize │
│ 236 │ 126.65 ms │  23.8 µs │ cuLaunchKernel      │
│ 238 │ 126.68 ms │  19.0 µs │ cuLaunchKernel      │
│ 240 │  126.7 ms │   5.3 µs │ cuLaunchKernel      │
│ 242 │ 126.71 ms │   3.5 µs │ cuLaunchKernel      │
│ 244 │ 126.72 ms │   2.7 µs │ cuLaunchKernel      │
│ 246 │ 126.72 ms │   3.6 µs │ cuLaunchKernel      │
│ 248 │ 126.74 ms │   6.8 µs │ cuLaunchKernel      │
│ 250 │ 126.75 ms │   5.5 µs │ cuLaunchKernel      │
│ 252 │ 126.76 ms │   7.4 µs │ cuLaunchKernel      │
│ 254 │ 126.78 ms │   6.1 µs │ cuLaunchKernel      │
│ 256 │ 126.79 ms │   5.5 µs │ cuLaunchKernel      │
│ 258 │  126.8 ms │   5.6 µs │ cuLaunchKernel      │
│ 260 │ 126.82 ms │  60.5 µs │ cuLaunchKernel      │
│ 262 │ 126.89 ms │  31.3 µs │ cuLaunchKernel      │
│ 264 │ 126.93 ms │   8.1 µs │ cuLaunchKernel      │
│ 268 │ 126.98 ms │  26.1 µs │ cuLaunchKernel      │
│ 272 │ 127.01 ms │   4.1 µs │ cuLaunchKernel      │
│ 276 │ 127.03 ms │  19.3 µs │ cuLaunchKernel      │
│ 280 │ 127.05 ms │  16.8 µs │ cuLaunchKernel      │
│ 284 │ 127.08 ms │   3.8 µs │ cuLaunchKernel      │
│ 288 │ 127.09 ms │   3.0 µs │ cuLaunchKernel      │
│ 290 │  127.1 ms │ 32.58 ms │ cuStreamSynchronize │
│ 292 │ 159.74 ms │  39.1 µs │ cuLaunchKernel      │
│ 294 │  159.8 ms │   6.5 µs │ cuLaunchKernel      │
│ 296 │ 159.82 ms │   5.7 µs │ cuLaunchKernel      │
│ 298 │ 159.84 ms │   4.2 µs │ cuLaunchKernel      │
│ 300 │ 159.85 ms │   3.0 µs │ cuLaunchKernel      │
│ 302 │ 159.86 ms │   3.9 µs │ cuLaunchKernel      │
│ 306 │ 159.89 ms │   4.8 µs │ cuLaunchKernel      │
│ 310 │  159.9 ms │   3.4 µs │ cuLaunchKernel      │
│ 312 │ 159.93 ms │   5.3 µs │ cuLaunchKernel      │
│ 314 │ 159.96 ms │  26.8 µs │ cuLaunchKernel      │
│ 316 │ 159.99 ms │   4.9 µs │ cuLaunchKernel      │
│ 318 │  160.0 ms │  18.2 µs │ cuLaunchKernel      │
│ 320 │ 160.03 ms │  25.9 µs │ cuLaunchKernel      │
│ 322 │ 160.07 ms │  45.0 µs │ cuLaunchKernel      │
│ 324 │ 160.13 ms │  12.9 µs │ cuLaunchKernel      │
│ 326 │ 160.26 ms │   5.0 µs │ cuLaunchKernel      │
│ 328 │ 160.27 ms │   3.9 µs │ cuLaunchKernel      │
│ 330 │ 160.28 ms │   4.7 µs │ cuLaunchKernel      │
│ 332 │  160.3 ms │  28.3 µs │ cuLaunchKernel      │
│ 334 │ 160.34 ms │  23.0 µs │ cuLaunchKernel      │
│ 336 │ 160.37 ms │  24.3 µs │ cuLaunchKernel      │
│ 338 │  160.4 ms │   8.8 µs │ cuLaunchKernel      │
│ 340 │ 160.43 ms │   6.6 µs │ cuLaunchKernel      │
│ 342 │ 160.44 ms │   6.5 µs │ cuLaunchKernel      │
│ 344 │ 160.45 ms │  33.2 µs │ cuLaunchKernel      │
│ 346 │  160.5 ms │   7.8 µs │ cuLaunchKernel      │
│ 348 │ 160.51 ms │   9.8 µs │ cuLaunchKernel      │
│ 350 │ 160.54 ms │   5.6 µs │ cuLaunchKernel      │
│ 352 │ 160.55 ms │   6.8 µs │ cuLaunchKernel      │
│ 354 │ 160.58 ms │   7.5 µs │ cuLaunchKernel      │
│ 356 │ 160.59 ms │  23.5 µs │ cuMemsetD32Async    │
│ 358 │ 160.62 ms │   2.7 µs │ cuMemsetD32Async    │
│ 360 │ 160.65 ms │   7.4 µs │ cuLaunchKernel      │
│ 362 │ 160.66 ms │  20.5 µs │ cuLaunchKernel      │
│ 364 │ 160.69 ms │  14.4 µs │ cuLaunchKernel      │
│ 368 │ 160.71 ms │   5.1 µs │ cuLaunchKernel      │
│ 372 │ 160.74 ms │  11.0 µs │ cuLaunchKernel      │
│ 374 │ 160.75 ms │  18.8 µs │ cuLaunchKernel      │
│ 376 │ 160.79 ms │   7.5 µs │ cuLaunchKernel      │
│ 378 │  160.8 ms │   4.3 µs │ cuLaunchKernel      │
│ 380 │ 160.81 ms │  20.6 µs │ cuLaunchKernel      │
│ 382 │ 160.84 ms │   5.0 µs │ cuLaunchKernel      │
│ 384 │ 160.85 ms │   6.6 µs │ cuLaunchKernel      │
│ 386 │ 160.87 ms │   5.5 µs │ cuLaunchKernel      │
│ 388 │ 160.88 ms │   5.9 µs │ cuLaunchKernel      │
│ 390 │ 160.89 ms │   5.2 µs │ cuLaunchKernel      │
│ 394 │  160.9 ms │  18.9 µs │ cuLaunchKernel      │
│ 398 │ 160.93 ms │  16.4 µs │ cuLaunchKernel      │
│ 402 │ 160.95 ms │  18.0 µs │ cuLaunchKernel      │
│ 406 │ 160.97 ms │   9.3 µs │ cuLaunchKernel      │
│ 408 │ 160.99 ms │   4.7 µs │ cuLaunchKernel      │
│ 410 │ 161.01 ms │   6.1 µs │ cuLaunchKernel      │
│ 412 │ 161.03 ms │   4.2 µs │ cuLaunchKernel      │
│ 414 │ 161.05 ms │   3.2 µs │ cuLaunchKernel      │
│ 416 │ 161.06 ms │   6.4 µs │ cuLaunchKernel      │
│ 418 │ 161.07 ms │   4.4 µs │ cuLaunchKernel      │
│ 420 │ 161.08 ms │  10.5 µs │ cuLaunchKernel      │
│ 422 │ 161.09 ms │   3.7 µs │ cuLaunchKernel      │
│ 424 │  161.1 ms │   3.3 µs │ cuLaunchKernel      │
│ 426 │ 161.11 ms │   3.5 µs │ cuLaunchKernel      │
│ 428 │ 161.11 ms │   8.6 µs │ cuLaunchKernel      │
│ 430 │ 161.13 ms │  12.8 µs │ cuMemsetD32Async    │
│ 432 │ 161.14 ms │   3.7 µs │ cuMemsetD32Async    │
│ 434 │ 161.14 ms │   2.5 µs │ cuMemsetD32Async    │
│ 436 │ 161.15 ms │   2.4 µs │ cuMemsetD32Async    │
│ 438 │ 161.16 ms │   6.1 µs │ cuLaunchKernel      │
│ 440 │ 161.19 ms │   6.4 µs │ cuLaunchKernel      │
│ 442 │  161.2 ms │   7.2 µs │ cuLaunchKernel      │
│ 444 │ 161.21 ms │   6.3 µs │ cuLaunchKernel      │
│ 446 │ 161.22 ms │   5.8 µs │ cuLaunchKernel      │
│ 448 │ 161.23 ms │  22.2 ms │ cuStreamSynchronize │
│ 450 │ 183.45 ms │  20.9 µs │ cuLaunchKernel      │
│ 452 │ 183.48 ms │   5.4 µs │ cuLaunchKernel      │
│ 454 │ 183.49 ms │   5.8 µs │ cuLaunchKernel      │
│ 456 │  183.5 ms │   3.9 µs │ cuLaunchKernel      │
│ 458 │ 183.51 ms │   2.9 µs │ cuLaunchKernel      │
│ 460 │ 183.52 ms │   3.6 µs │ cuLaunchKernel      │
│ 462 │ 183.53 ms │   6.6 µs │ cuLaunchKernel      │
│ 464 │ 183.54 ms │   5.6 µs │ cuLaunchKernel      │
│ 466 │ 183.55 ms │   7.7 µs │ cuLaunchKernel      │
│ 468 │ 183.57 ms │   5.9 µs │ cuLaunchKernel      │
│ 470 │  183.6 ms │   6.6 µs │ cuLaunchKernel      │
│ 472 │ 183.61 ms │   5.7 µs │ cuLaunchKernel      │
│ 474 │ 183.62 ms │  20.2 µs │ cuLaunchKernel      │
│ 476 │ 183.65 ms │  10.8 µs │ cuLaunchKernel      │
│ 478 │ 183.67 ms │   7.5 µs │ cuLaunchKernel      │
│ 482 │ 183.69 ms │   8.9 µs │ cuLaunchKernel      │
│ 486 │ 183.71 ms │   4.2 µs │ cuLaunchKernel      │
│ 490 │ 183.72 ms │   4.2 µs │ cuLaunchKernel      │
│ 494 │ 183.73 ms │   3.9 µs │ cuLaunchKernel      │
│ 498 │ 183.75 ms │   4.5 µs │ cuLaunchKernel      │
│ 502 │ 183.76 ms │   3.6 µs │ cuLaunchKernel      │
│ 504 │ 183.76 ms │  3.59 ms │ cuStreamSynchronize │
│ 506 │ 187.36 ms │   5.8 µs │ cuLaunchKernel      │
│ 508 │ 187.38 ms │   3.6 µs │ cuLaunchKernel      │
│ 510 │ 187.38 ms │   3.9 µs │ cuLaunchKernel      │
│ 512 │ 187.39 ms │   3.7 µs │ cuLaunchKernel      │
│ 514 │  187.4 ms │   2.7 µs │ cuLaunchKernel      │
│ 516 │  187.4 ms │   3.6 µs │ cuLaunchKernel      │
│ 520 │ 187.42 ms │   3.9 µs │ cuLaunchKernel      │
│ 524 │ 187.43 ms │   3.0 µs │ cuLaunchKernel      │
│ 526 │ 187.43 ms │   4.6 µs │ cuLaunchKernel      │
│ 528 │ 187.45 ms │   9.7 µs │ cuLaunchKernel      │
│ 530 │ 187.46 ms │   5.0 µs │ cuLaunchKernel      │
│ 532 │ 187.47 ms │   3.6 µs │ cuLaunchKernel      │
│ 534 │ 187.48 ms │   6.6 µs │ cuLaunchKernel      │
│ 536 │ 187.49 ms │  11.3 µs │ cuLaunchKernel      │
│ 538 │ 187.51 ms │  11.8 µs │ cuLaunchKernel      │
│ 540 │ 187.53 ms │   4.3 µs │ cuLaunchKernel      │
│ 542 │ 187.54 ms │   3.4 µs │ cuLaunchKernel      │
│ 544 │ 187.54 ms │   4.1 µs │ cuLaunchKernel      │
│ 546 │ 187.55 ms │   9.1 µs │ cuLaunchKernel      │
│ 548 │ 187.59 ms │   4.5 µs │ cuLaunchKernel      │
│ 550 │  187.6 ms │   5.1 µs │ cuLaunchKernel      │
│ 552 │ 187.61 ms │   8.3 µs │ cuLaunchKernel      │
│ 554 │ 187.62 ms │   6.4 µs │ cuLaunchKernel      │
│ 556 │ 187.63 ms │   6.3 µs │ cuLaunchKernel      │
│ 558 │ 187.65 ms │  12.2 µs │ cuLaunchKernel      │
│ 560 │ 187.67 ms │   7.3 µs │ cuLaunchKernel      │
│ 562 │ 187.68 ms │   8.9 µs │ cuLaunchKernel      │
│ 564 │  187.7 ms │   5.5 µs │ cuLaunchKernel      │
│ 566 │ 187.71 ms │   7.0 µs │ cuLaunchKernel      │
│ 568 │ 187.72 ms │   7.0 µs │ cuLaunchKernel      │
│ 570 │ 187.73 ms │   9.0 µs │ cuMemsetD32Async    │
│ 572 │ 187.74 ms │   2.8 µs │ cuMemsetD32Async    │
│ 574 │ 187.75 ms │   6.4 µs │ cuLaunchKernel      │
│ 576 │ 187.76 ms │   9.9 µs │ cuLaunchKernel      │
│ 578 │ 187.78 ms │  17.3 µs │ cuLaunchKernel      │
│ 582 │ 187.81 ms │   4.6 µs │ cuLaunchKernel      │
│ 586 │ 187.82 ms │   9.9 µs │ cuLaunchKernel      │
│ 588 │ 187.83 ms │   5.4 µs │ cuLaunchKernel      │
│ 590 │ 187.84 ms │   7.3 µs │ cuLaunchKernel      │
│ 592 │ 187.86 ms │   4.5 µs │ cuLaunchKernel      │
│ 594 │ 187.87 ms │   7.1 µs │ cuLaunchKernel      │
│ 596 │ 187.88 ms │   4.7 µs │ cuLaunchKernel      │
│ 598 │ 187.89 ms │   6.5 µs │ cuLaunchKernel      │
│ 600 │  187.9 ms │   5.5 µs │ cuLaunchKernel      │
│ 602 │ 187.91 ms │   6.2 µs │ cuLaunchKernel      │
│ 604 │ 187.92 ms │   5.2 µs │ cuLaunchKernel      │
│ 608 │ 187.93 ms │   4.4 µs │ cuLaunchKernel      │
│ 612 │ 187.94 ms │   3.2 µs │ cuLaunchKernel      │
│ 616 │ 187.96 ms │   4.1 µs │ cuLaunchKernel      │
│ 620 │ 187.97 ms │   8.7 µs │ cuLaunchKernel      │
│ 622 │ 187.98 ms │   4.2 µs │ cuLaunchKernel      │
│ 624 │ 187.99 ms │   6.7 µs │ cuLaunchKernel      │
│ 626 │  188.0 ms │   5.0 µs │ cuLaunchKernel      │
│ 628 │ 188.01 ms │   3.0 µs │ cuLaunchKernel      │
│ 630 │ 188.01 ms │   6.1 µs │ cuLaunchKernel      │
│ 632 │ 188.02 ms │   4.3 µs │ cuLaunchKernel      │
│ 634 │ 188.03 ms │  10.8 µs │ cuLaunchKernel      │
│ 636 │ 188.05 ms │   3.9 µs │ cuLaunchKernel      │
│ 638 │ 188.06 ms │   3.2 µs │ cuLaunchKernel      │
│ 640 │ 188.06 ms │   4.1 µs │ cuLaunchKernel      │
│ 642 │ 188.07 ms │   8.8 µs │ cuLaunchKernel      │
│ 644 │ 188.08 ms │  12.0 µs │ cuMemsetD32Async    │
│ 646 │  188.1 ms │   3.4 µs │ cuMemsetD32Async    │
│ 648 │  188.1 ms │   2.8 µs │ cuMemsetD32Async    │
│ 650 │  188.1 ms │   2.5 µs │ cuMemsetD32Async    │
│ 652 │ 188.11 ms │   5.9 µs │ cuLaunchKernel      │
│ 654 │ 188.12 ms │   8.9 µs │ cuLaunchKernel      │
│ 656 │ 188.14 ms │   6.9 µs │ cuLaunchKernel      │
│ 658 │ 188.15 ms │   6.5 µs │ cuLaunchKernel      │
│ 660 │ 188.16 ms │   5.4 µs │ cuLaunchKernel      │
│ 662 │ 188.17 ms │  8.35 ms │ cuStreamSynchronize │
│ 664 │ 196.53 ms │  13.4 µs │ cuLaunchKernel      │
│ 666 │ 196.55 ms │   4.5 µs │ cuLaunchKernel      │
│ 668 │ 196.56 ms │   4.8 µs │ cuLaunchKernel      │
│ 670 │ 196.57 ms │   3.7 µs │ cuLaunchKernel      │
│ 672 │ 196.57 ms │   2.9 µs │ cuLaunchKernel      │
│ 674 │ 196.58 ms │   3.6 µs │ cuLaunchKernel      │
│ 676 │ 196.61 ms │   7.1 µs │ cuLaunchKernel      │
│ 678 │ 196.62 ms │  19.7 µs │ cuLaunchKernel      │
│ 680 │ 196.66 ms │   7.4 µs │ cuLaunchKernel      │
│ 682 │ 196.67 ms │   6.0 µs │ cuLaunchKernel      │
│ 684 │ 196.68 ms │   5.4 µs │ cuLaunchKernel      │
│ 686 │ 196.69 ms │   5.7 µs │ cuLaunchKernel      │
│ 688 │  196.7 ms │  16.8 µs │ cuLaunchKernel      │
│ 690 │ 196.73 ms │  10.6 µs │ cuLaunchKernel      │
│ 692 │ 196.75 ms │   7.0 µs │ cuLaunchKernel      │
│ 696 │ 196.76 ms │   5.4 µs │ cuLaunchKernel      │
│ 700 │ 196.78 ms │   4.1 µs │ cuLaunchKernel      │
│ 704 │ 196.79 ms │   3.6 µs │ cuLaunchKernel      │
│ 708 │  196.8 ms │   3.1 µs │ cuLaunchKernel      │
│ 712 │ 196.81 ms │   4.1 µs │ cuLaunchKernel      │
│ 716 │ 196.82 ms │   4.0 µs │ cuLaunchKernel      │
│ 720 │ 196.83 ms │   4.0 µs │ cuLaunchKernel      │
│ 724 │ 196.84 ms │   3.9 µs │ cuLaunchKernel      │
│ 726 │ 196.85 ms │   3.8 ms │ cuStreamSynchronize │
│ 728 │ 200.66 ms │   5.9 µs │ cuLaunchKernel      │
│ 730 │ 200.66 ms │   3.4 µs │ cuLaunchKernel      │
│ 732 │ 200.67 ms │   7.5 µs │ cuLaunchKernel      │
│ 734 │ 200.68 ms │   3.8 µs │ cuLaunchKernel      │
│ 736 │ 200.69 ms │   2.8 µs │ cuLaunchKernel      │
│ 738 │ 200.69 ms │   3.5 µs │ cuLaunchKernel      │
│ 740 │  200.7 ms │   4.1 µs │ cuLaunchKernel      │
│ 742 │ 200.71 ms │   6.5 µs │ cuLaunchKernel      │
│ 744 │ 200.72 ms │   4.3 µs │ cuLaunchKernel      │
│ 746 │ 200.73 ms │   3.3 µs │ cuLaunchKernel      │
│ 748 │ 200.74 ms │   6.3 µs │ cuLaunchKernel      │
│ 750 │ 200.75 ms │   4.6 µs │ cuLaunchKernel      │
│ 752 │ 200.76 ms │  17.4 µs │ cuLaunchKernel      │
│ 754 │ 200.78 ms │   5.0 µs │ cuLaunchKernel      │
│ 756 │ 200.79 ms │   3.6 µs │ cuLaunchKernel      │
│ 758 │  200.8 ms │   4.1 µs │ cuLaunchKernel      │
│ 760 │ 200.81 ms │  10.6 µs │ cuLaunchKernel      │
│ 762 │ 201.17 ms │  11.2 µs │ cuLaunchKernel      │
│ 764 │  201.2 ms │   5.4 µs │ cuLaunchKernel      │
│ 766 │ 201.22 ms │   5.4 µs │ cuLaunchKernel      │
│ 768 │ 201.25 ms │   8.3 µs │ cuLaunchKernel      │
│ 770 │ 201.26 ms │   5.1 µs │ cuLaunchKernel      │
│ 772 │ 201.28 ms │   3.3 µs │ cuLaunchKernel      │
│ 774 │ 201.29 ms │   6.0 µs │ cuLaunchKernel      │
│ 776 │ 201.31 ms │   3.4 µs │ cuLaunchKernel      │
│ 778 │ 201.32 ms │   4.8 µs │ cuLaunchKernel      │
│ 780 │ 201.33 ms │  13.1 µs │ cuLaunchKernel      │
│ 782 │ 201.36 ms │  16.9 µs │ cuLaunchKernel      │
│ 784 │ 201.38 ms │   3.9 µs │ cuLaunchKernel      │
│ 786 │  201.4 ms │   6.1 µs │ cuLaunchKernel      │
│ 788 │ 201.41 ms │   3.4 µs │ cuLaunchKernel      │
│ 790 │ 201.42 ms │   5.6 µs │ cuLaunchKernel      │
│ 792 │ 201.44 ms │   3.3 µs │ cuLaunchKernel      │
│ 794 │ 201.47 ms │   6.2 µs │ cuLaunchKernel      │
│ 796 │ 201.48 ms │   3.3 µs │ cuLaunchKernel      │
│ 798 │  201.5 ms │   6.1 µs │ cuLaunchKernel      │
│ 800 │ 201.51 ms │   3.4 µs │ cuLaunchKernel      │
│ 802 │ 201.52 ms │   3.7 µs │ cuLaunchKernel      │
│ 804 │ 201.54 ms │   4.8 µs │ cuLaunchKernel      │
│ 806 │ 201.55 ms │   3.6 µs │ cuLaunchKernel      │
│ 808 │ 201.56 ms │   4.4 µs │ cuLaunchKernel      │
└─────┴───────────┴──────────┴─────────────────────┘

Device-side activity: GPU was busy for 197.98 ms (97.56% of the trace)
┌─────┬───────────┬───────────┬─────────┬────────┬──────┬───────────────────┬─────────────┬──────────────┬─────────────────────────────────────────────────────────────────────────────────────────────
│  ID │     Start │      Time │ Threads │ Blocks │ Regs │        Shared Mem │        Size │   Throughput │ Name                                                                                       ⋯
├─────┼───────────┼───────────┼─────────┼────────┼──────┼───────────────────┼─────────────┼──────────────┼─────────────────────────────────────────────────────────────────────────────────────────────
│   4 │   1.13 ms │   1.51 ms │    1024 │      5 │   64 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│   8 │   2.64 ms │ 426.59 µs │    1024 │      5 │   64 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│  10 │   3.07 ms │ 143.68 µs │       - │      - │    - │                 - │   1.055 MiB │  7.168 GiB/s │ [set device memory]                                                                        ⋯
│  12 │   3.22 ms │  44.48 µs │       - │      - │    - │                 - │ 283.500 KiB │  6.079 GiB/s │ [set device memory]                                                                        ⋯
│  14 │   3.26 ms │ 145.82 µs │       - │      - │    - │                 - │   1.055 MiB │  7.063 GiB/s │ [set device memory]                                                                        ⋯
│  16 │   3.41 ms │  42.78 µs │       - │      - │    - │                 - │ 283.500 KiB │  6.319 GiB/s │ [set device memory]                                                                        ⋯
│  18 │   3.46 ms │   1.04 ms │  4×4×16 │  216×2 │   40 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│  20 │    4.5 ms │   1.11 ms │  4×4×16 │  216×2 │   40 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│  22 │   5.61 ms │ 970.46 µs │  4×4×16 │  216×2 │   39 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6 ⋯
│  24 │   6.59 ms │   3.15 ms │  4×4×16 │  216×2 │   62 │  9.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│  26 │   9.73 ms │ 893.63 µs │  4×4×16 │  216×2 │   40 │  3.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeh ⋯
│  30 │  10.96 ms │   1.93 ms │     256 │    203 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│  32 │   12.9 ms │ 447.61 µs │     256 │    153 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│  34 │  13.35 ms │   1.92 ms │     256 │    203 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│  36 │  15.27 ms │ 520.19 µs │     256 │    203 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│  38 │   15.8 ms │ 161.15 µs │     256 │     51 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│  40 │  15.96 ms │ 502.52 µs │     256 │    203 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│  42 │  16.46 ms │   3.17 ms │  4×4×16 │  216×2 │   62 │  9.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│  44 │  19.63 ms │ 548.96 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ ⋯
│  46 │  20.19 ms │   1.47 ms │     256 │    284 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│  48 │  21.66 ms │   1.23 ms │  4×4×16 │  216×2 │   62 │  3.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│  50 │   22.9 ms │ 424.28 µs │  4×4×16 │  216×2 │   31 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│  52 │  23.32 ms │   1.12 ms │     256 │    284 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│  54 │  24.44 ms │  687.0 µs │  4×4×16 │  216×2 │   32 │ 1024 bytes static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│  56 │  25.15 ms │   7.15 ms │     256 │    270 │   78 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_ ⋯
│  58 │  32.29 ms │   2.97 ms │     256 │    284 │   58 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│  62 │  35.27 ms │   1.89 ms │     768 │      5 │   77 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│  66 │  37.16 ms │ 521.79 µs │     768 │      5 │   77 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│  70 │  37.68 ms │   1.87 ms │     768 │      5 │   77 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│  74 │  39.56 ms │  520.7 µs │     768 │      5 │   77 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│  78 │  40.69 ms │   2.06 ms │     256 │    203 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│  80 │  42.76 ms │ 589.76 µs │     256 │    204 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│  82 │  43.35 ms │   2.04 ms │     256 │    203 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│  84 │  45.39 ms │ 547.97 µs │     256 │    213 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│  86 │  45.94 ms │ 170.05 µs │     256 │     54 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│  88 │  46.12 ms │ 529.76 µs │     256 │    213 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│  92 │  46.65 ms │   1.51 ms │    1024 │      5 │   64 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│  96 │  48.16 ms │ 429.02 µs │    1024 │      5 │   64 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│  98 │  48.59 ms │  314.3 µs │  4×4×16 │  216×2 │   29 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5EL ⋯
│ 100 │  48.91 ms │   1.77 ms │     256 │    284 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 102 │  50.67 ms │  81.57 µs │     4×4 │    216 │   30 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int6 ⋯
│ 104 │  50.76 ms │   33.5 µs │     4×4 │    216 │   23 │                 - │           - │            - │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645S ⋯
│ 106 │  50.79 ms │ 857.92 µs │     256 │    270 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_ ⋯
│ 108 │  51.65 ms │ 536.45 µs │  4×4×16 │  216×2 │   33 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS ⋯
│ 110 │  52.22 ms │   2.18 ms │     256 │    270 │   72 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeho ⋯
│ 112 │   54.4 ms │ 557.56 µs │  4×4×16 │  216×2 │   31 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10 ⋯
│ 114 │  54.96 ms │ 374.01 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 116 │  55.34 ms │  378.3 µs │  4×4×16 │  216×2 │   31 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 118 │  55.72 ms │ 971.74 µs │     4×4 │    216 │   58 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux ⋯
│ 120 │   56.7 ms │ 232.16 µs │  4×4×16 │  216×2 │   21 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 122 │  56.93 ms │ 657.21 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI13BandMatrixRowILin0ELi1E7AdjointI7Float3210AxisTensorIS2_Li1E5Tuple ⋯
│ 124 │  57.59 ms │   1.13 ms │     256 │    270 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 126 │  58.73 ms │   1.11 ms │     256 │    284 │   37 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 128 │  59.84 ms │   2.11 ms │     256 │    270 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 130 │  61.95 ms │ 849.76 µs │     256 │    270 │   32 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 132 │  62.84 ms │   1.85 ms │     256 │    270 │   64 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 134 │  64.69 ms │   3.33 ms │     256 │    284 │   50 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 136 │  68.02 ms │   1.66 ms │     256 │    284 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 138 │  69.68 ms │   2.86 ms │     256 │    284 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 140 │  72.55 ms │   2.95 ms │     256 │    284 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E ⋯
│ 142 │  75.51 ms │ 135.97 µs │       - │      - │    - │                 - │   1.055 MiB │  7.575 GiB/s │ [set device memory]                                                                        ⋯
│ 144 │  75.65 ms │  40.96 µs │       - │      - │    - │                 - │ 283.500 KiB │  6.601 GiB/s │ [set device memory]                                                                        ⋯
│ 146 │  75.69 ms │   2.65 ms │     256 │    270 │   49 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 148 │  78.34 ms │   2.65 ms │     256 │    270 │   56 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 150 │  80.99 ms │   2.55 ms │     256 │    284 │   38 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 154 │  83.54 ms │   2.36 ms │     640 │      5 │   94 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 158 │  85.91 ms │  652.6 µs │     640 │      5 │   94 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 160 │  86.61 ms │   1.04 ms │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisT ⋯
│ 162 │  87.65 ms │   4.99 ms │     256 │    284 │   56 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E ⋯
│ 164 │  92.65 ms │  482.4 µs │  4×4×16 │  216×2 │   27 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ ⋯
│ 166 │  93.13 ms │   3.01 ms │     256 │    284 │   40 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 168 │  96.14 ms │   1.65 ms │     256 │     14 │   47 │                 - │           - │            - │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_Li4E13CuDeviceArra ⋯
│ 170 │  97.79 ms │   2.38 ms │     256 │    284 │   40 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 172 │ 100.18 ms │   3.47 ms │     256 │     14 │   43 │                 - │           - │            - │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_I10AxisTensorI7Flo ⋯
│ 174 │ 103.65 ms │ 847.55 µs │     256 │    270 │   40 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 176 │  104.5 ms │  845.4 µs │     256 │    270 │   40 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 180 │ 105.35 ms │   1.85 ms │     768 │      5 │   77 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 184 │  107.2 ms │ 502.81 µs │     768 │      5 │   77 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 188 │ 107.71 ms │   2.45 ms │     768 │      5 │   79 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 192 │ 110.16 ms │ 766.97 µs │     768 │      5 │   79 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 194 │ 110.96 ms │ 311.78 µs │  4×4×16 │  216×2 │   29 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5EL ⋯
│ 196 │ 111.28 ms │   1.77 ms │     256 │    284 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 198 │ 113.05 ms │  81.82 µs │     4×4 │    216 │   30 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int6 ⋯
│ 200 │ 113.13 ms │  33.38 µs │     4×4 │    216 │   23 │                 - │           - │            - │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645S ⋯
│ 202 │ 113.17 ms │ 847.99 µs │     256 │    270 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_ ⋯
│ 204 │ 114.02 ms │ 536.83 µs │  4×4×16 │  216×2 │   33 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS ⋯
│ 206 │ 114.56 ms │   2.19 ms │     256 │    270 │   72 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeho ⋯
│ 208 │ 116.74 ms │ 558.04 µs │  4×4×16 │  216×2 │   31 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10 ⋯
│ 210 │ 117.31 ms │ 372.57 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 212 │ 117.68 ms │ 378.53 µs │  4×4×16 │  216×2 │   31 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 214 │ 118.06 ms │ 970.36 µs │     4×4 │    216 │   58 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux ⋯
│ 216 │ 119.04 ms │  138.5 µs │       - │      - │    - │                 - │   1.055 MiB │  7.437 GiB/s │ [set device memory]                                                                        ⋯
│ 218 │ 119.19 ms │  39.58 µs │       - │      - │    - │                 - │ 283.500 KiB │  6.830 GiB/s │ [set device memory]                                                                        ⋯
│ 220 │ 119.23 ms │ 146.43 µs │       - │      - │    - │                 - │   1.055 MiB │  7.034 GiB/s │ [set device memory]                                                                        ⋯
│ 222 │ 119.38 ms │  47.04 µs │       - │      - │    - │                 - │ 283.500 KiB │  5.748 GiB/s │ [set device memory]                                                                        ⋯
│ 224 │ 119.43 ms │   1.03 ms │  4×4×16 │  216×2 │   40 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 226 │ 120.47 ms │   1.12 ms │  4×4×16 │  216×2 │   40 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 228 │ 121.59 ms │ 971.93 µs │  4×4×16 │  216×2 │   39 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6 ⋯
│ 230 │ 122.56 ms │   3.12 ms │  4×4×16 │  216×2 │   62 │  9.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│ 232 │ 125.69 ms │  902.2 µs │  4×4×16 │  216×2 │   40 │  3.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeh ⋯
│ 236 │ 126.98 ms │   1.95 ms │     256 │    203 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 238 │ 128.93 ms │ 447.23 µs │     256 │    153 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 240 │ 129.38 ms │   1.92 ms │     256 │    203 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 242 │ 131.31 ms │ 519.48 µs │     256 │    203 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 244 │ 131.83 ms │ 162.66 µs │     256 │     51 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 246 │ 131.99 ms │ 502.62 µs │     256 │    203 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 248 │  132.5 ms │   3.16 ms │  4×4×16 │  216×2 │   62 │  9.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│ 250 │ 135.66 ms │ 549.69 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ ⋯
│ 252 │ 136.22 ms │   1.45 ms │     256 │    284 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 254 │ 137.67 ms │   1.23 ms │  4×4×16 │  216×2 │   62 │  3.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 256 │  138.9 ms │ 427.36 µs │  4×4×16 │  216×2 │   31 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│ 258 │ 139.33 ms │   1.12 ms │     256 │    284 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 260 │ 140.46 ms │ 684.51 µs │  4×4×16 │  216×2 │   32 │ 1024 bytes static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│ 262 │ 141.17 ms │   7.13 ms │     256 │    270 │   78 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_ ⋯
│ 264 │  148.3 ms │   2.96 ms │     256 │    284 │   58 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 268 │ 151.26 ms │   2.34 ms │     640 │      5 │   92 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 272 │ 153.61 ms │ 656.54 µs │     640 │      5 │   92 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 276 │ 154.27 ms │   2.31 ms │     640 │      5 │   92 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 280 │ 156.58 ms │ 640.96 µs │     640 │      5 │   92 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 284 │ 157.22 ms │    1.9 ms │     768 │      5 │   77 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 288 │ 159.13 ms │ 521.73 µs │     768 │      5 │   77 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 292 │ 160.34 ms │   2.07 ms │     256 │    203 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 294 │ 162.41 ms │ 586.27 µs │     256 │    204 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 296 │  163.0 ms │   2.04 ms │     256 │    203 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 298 │ 165.04 ms │ 548.77 µs │     256 │    213 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 300 │  165.6 ms │ 172.19 µs │     256 │     54 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 302 │ 165.77 ms │ 529.53 µs │     256 │    213 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 306 │  166.3 ms │   1.51 ms │    1024 │      5 │   64 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 310 │ 167.81 ms │ 429.05 µs │    1024 │      5 │   64 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 312 │ 168.24 ms │ 318.43 µs │  4×4×16 │  216×2 │   29 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5EL ⋯
│ 314 │ 168.56 ms │   1.78 ms │     256 │    284 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 316 │ 170.34 ms │  82.21 µs │     4×4 │    216 │   30 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int6 ⋯
│ 318 │ 170.43 ms │  33.28 µs │     4×4 │    216 │   23 │                 - │           - │            - │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645S ⋯
│ 320 │ 170.46 ms │ 847.83 µs │     256 │    270 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_ ⋯
│ 322 │ 171.31 ms │ 539.04 µs │  4×4×16 │  216×2 │   33 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS ⋯
│ 324 │ 171.89 ms │   1.23 ms │     256 │    270 │   72 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeho ⋯
│ 326 │ 173.12 ms │ 275.04 µs │  4×4×16 │  216×2 │   31 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10 ⋯
│ 328 │  173.4 ms │ 136.83 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 330 │ 173.54 ms │ 143.68 µs │  4×4×16 │  216×2 │   31 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 332 │ 173.68 ms │ 798.97 µs │     4×4 │    216 │   58 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux ⋯
│ 334 │ 174.48 ms │  58.37 µs │  4×4×16 │  216×2 │   21 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 336 │ 174.54 ms │ 443.39 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI13BandMatrixRowILin0ELi1E7AdjointI7Float3210AxisTensorIS2_Li1E5Tuple ⋯
│ 338 │ 174.99 ms │ 366.53 µs │     256 │    270 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 340 │ 175.36 ms │ 199.36 µs │     256 │    284 │   37 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 342 │ 175.56 ms │ 295.55 µs │     256 │    270 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 344 │ 175.85 ms │ 155.68 µs │     256 │    270 │   32 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 346 │ 176.04 ms │ 408.89 µs │     256 │    270 │   64 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 348 │ 176.45 ms │ 860.19 µs │     256 │    284 │   50 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 350 │ 177.31 ms │ 152.42 µs │     256 │    284 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 352 │ 177.46 ms │ 324.35 µs │     256 │    284 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 354 │ 177.79 ms │ 384.45 µs │     256 │    284 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E ⋯
│ 356 │ 178.17 ms │  11.71 µs │       - │      - │    - │                 - │   1.055 MiB │ 87.942 GiB/s │ [set device memory]                                                                        ⋯
│ 358 │ 178.18 ms │    4.1 µs │       - │      - │    - │                 - │ 283.500 KiB │ 66.008 GiB/s │ [set device memory]                                                                        ⋯
│ 360 │ 178.19 ms │ 245.92 µs │     256 │    270 │   49 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 362 │ 178.44 ms │ 254.37 µs │     256 │    270 │   56 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 364 │ 178.69 ms │ 230.37 µs │     256 │    284 │   38 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 368 │ 178.92 ms │ 209.92 µs │     640 │      5 │   94 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 372 │ 179.13 ms │  57.73 µs │     640 │      5 │   94 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 374 │  179.2 ms │ 124.25 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisT ⋯
│ 376 │ 179.33 ms │ 755.26 µs │     256 │    284 │   56 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E ⋯
│ 378 │ 180.08 ms │  56.38 µs │  4×4×16 │  216×2 │   27 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ ⋯
│ 380 │ 180.14 ms │ 274.69 µs │     256 │    284 │   40 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 382 │ 180.42 ms │ 163.26 µs │     256 │     14 │   47 │                 - │           - │            - │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_Li4E13CuDeviceArra ⋯
│ 384 │ 180.58 ms │ 217.63 µs │     256 │    284 │   40 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 386 │  180.8 ms │ 337.18 µs │     256 │     14 │   43 │                 - │           - │            - │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_I10AxisTensorI7Flo ⋯
│ 388 │ 181.14 ms │  79.55 µs │     256 │    270 │   40 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 390 │ 181.22 ms │  75.68 µs │     256 │    270 │   40 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 394 │ 181.29 ms │ 166.94 µs │     768 │      5 │   77 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 398 │ 181.46 ms │  45.02 µs │     768 │      5 │   77 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 402 │ 181.51 ms │  238.4 µs │     768 │      5 │   79 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 406 │ 181.74 ms │  71.68 µs │     768 │      5 │   79 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 408 │ 181.82 ms │  35.14 µs │  4×4×16 │  216×2 │   29 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5EL ⋯
│ 410 │ 181.86 ms │ 165.37 µs │     256 │    284 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 412 │ 182.02 ms │   9.25 µs │     4×4 │    216 │   30 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int6 ⋯
│ 414 │ 182.03 ms │   3.74 µs │     4×4 │    216 │   23 │                 - │           - │            - │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645S ⋯
│ 416 │ 182.04 ms │  78.72 µs │     256 │    270 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_ ⋯
│ 418 │ 182.12 ms │  55.39 µs │  4×4×16 │  216×2 │   33 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS ⋯
│ 420 │ 182.17 ms │ 205.06 µs │     256 │    270 │   72 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeho ⋯
│ 422 │ 182.38 ms │  65.66 µs │  4×4×16 │  216×2 │   31 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10 ⋯
│ 424 │ 182.45 ms │   36.7 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 426 │ 182.49 ms │  36.22 µs │  4×4×16 │  216×2 │   31 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 428 │ 182.53 ms │ 120.22 µs │     4×4 │    216 │   58 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux ⋯
│ 430 │ 182.65 ms │  11.52 µs │       - │      - │    - │                 - │   1.055 MiB │ 89.407 GiB/s │ [set device memory]                                                                        ⋯
│ 432 │ 182.68 ms │   4.29 µs │       - │      - │    - │                 - │ 283.500 KiB │ 63.051 GiB/s │ [set device memory]                                                                        ⋯
│ 434 │ 182.68 ms │  11.81 µs │       - │      - │    - │                 - │   1.055 MiB │ 87.226 GiB/s │ [set device memory]                                                                        ⋯
│ 436 │ 182.69 ms │   4.06 µs │       - │      - │    - │                 - │ 283.500 KiB │ 66.526 GiB/s │ [set device memory]                                                                        ⋯
│ 438 │  182.7 ms │ 103.29 µs │  4×4×16 │  216×2 │   40 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 440 │  182.8 ms │ 108.38 µs │  4×4×16 │  216×2 │   40 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 442 │ 182.91 ms │  97.95 µs │  4×4×16 │  216×2 │   39 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6 ⋯
│ 444 │ 183.01 ms │ 319.49 µs │  4×4×16 │  216×2 │   62 │  9.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│ 446 │ 183.33 ms │  89.41 µs │  4×4×16 │  216×2 │   40 │  3.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeh ⋯
│ 450 │ 183.68 ms │  192.8 µs │     256 │    203 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 452 │ 183.88 ms │  51.46 µs │     256 │    153 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 454 │ 183.93 ms │ 188.48 µs │     256 │    203 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 456 │ 184.12 ms │  53.98 µs │     256 │    203 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 458 │ 184.17 ms │  17.54 µs │     256 │     51 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 460 │ 184.19 ms │  49.98 µs │     256 │    203 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 462 │ 184.24 ms │ 320.32 µs │  4×4×16 │  216×2 │   62 │  9.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│ 464 │ 184.56 ms │  65.92 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ ⋯
│ 466 │ 184.63 ms │ 133.02 µs │     256 │    284 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 468 │ 184.76 ms │ 120.93 µs │  4×4×16 │  216×2 │   62 │  3.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 470 │ 184.88 ms │  43.39 µs │  4×4×16 │  216×2 │   31 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│ 472 │ 184.93 ms │ 103.36 µs │     256 │    284 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 474 │ 185.03 ms │  77.57 µs │  4×4×16 │  216×2 │   32 │ 1024 bytes static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│ 476 │ 185.12 ms │   1.05 ms │     256 │    270 │   78 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_ ⋯
│ 478 │ 186.18 ms │ 281.02 µs │     256 │    284 │   58 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 482 │ 186.46 ms │ 247.36 µs │     512 │      5 │  115 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 486 │ 186.71 ms │  70.02 µs │     512 │      5 │  115 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 490 │ 186.78 ms │ 240.89 µs │     512 │      5 │  115 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 494 │ 187.02 ms │  69.02 µs │     512 │      5 │  115 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 498 │ 187.09 ms │ 207.36 µs │     640 │      5 │   92 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 502 │  187.3 ms │  58.14 µs │     640 │      5 │   92 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 506 │ 187.55 ms │ 207.23 µs │     256 │    203 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 508 │ 187.76 ms │  66.34 µs │     256 │    204 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 510 │ 187.82 ms │ 201.53 µs │     256 │    203 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 512 │ 188.03 ms │  56.67 µs │     256 │    213 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 514 │ 188.08 ms │  18.05 µs │     256 │     54 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 516 │  188.1 ms │  52.35 µs │     256 │    213 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 520 │ 188.16 ms │ 136.42 µs │    1024 │      5 │   64 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 524 │ 188.29 ms │  38.14 µs │    1024 │      5 │   64 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 526 │ 188.33 ms │  34.91 µs │  4×4×16 │  216×2 │   29 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5EL ⋯
│ 528 │ 188.37 ms │ 166.53 µs │     256 │    284 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 530 │ 188.53 ms │   9.09 µs │     4×4 │    216 │   30 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int6 ⋯
│ 532 │ 188.54 ms │   3.71 µs │     4×4 │    216 │   23 │                 - │           - │            - │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645S ⋯
│ 534 │ 188.55 ms │  78.98 µs │     256 │    270 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_ ⋯
│ 536 │ 188.63 ms │  54.85 µs │  4×4×16 │  216×2 │   33 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS ⋯
│ 538 │ 188.69 ms │ 205.82 µs │     256 │    270 │   72 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeho ⋯
│ 540 │  188.9 ms │  65.38 µs │  4×4×16 │  216×2 │   31 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10 ⋯
│ 542 │ 188.96 ms │  36.93 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 544 │  189.0 ms │  36.26 µs │  4×4×16 │  216×2 │   31 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 546 │ 189.04 ms │ 120.96 µs │     4×4 │    216 │   58 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux ⋯
│ 548 │ 189.16 ms │  26.02 µs │  4×4×16 │  216×2 │   21 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 550 │ 189.19 ms │   79.1 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI13BandMatrixRowILin0ELi1E7AdjointI7Float3210AxisTensorIS2_Li1E5Tuple ⋯
│ 552 │ 189.26 ms │ 105.06 µs │     256 │    270 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 554 │ 189.37 ms │ 102.17 µs │     256 │    284 │   37 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 556 │ 189.47 ms │ 197.09 µs │     256 │    270 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 558 │ 189.67 ms │  76.22 µs │     256 │    270 │   32 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 560 │ 189.75 ms │ 174.69 µs │     256 │    270 │   64 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 562 │ 189.93 ms │  501.5 µs │     256 │    284 │   50 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 564 │ 190.43 ms │ 153.44 µs │     256 │    284 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 566 │ 190.59 ms │ 306.34 µs │     256 │    284 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int ⋯
│ 568 │ 190.89 ms │ 383.81 µs │     256 │    284 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E ⋯
│ 570 │ 191.28 ms │  11.62 µs │       - │      - │    - │                 - │   1.055 MiB │ 88.669 GiB/s │ [set device memory]                                                                        ⋯
│ 572 │ 191.29 ms │   4.03 µs │       - │      - │    - │                 - │ 283.500 KiB │ 67.053 GiB/s │ [set device memory]                                                                        ⋯
│ 574 │ 191.29 ms │ 246.11 µs │     256 │    270 │   49 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 576 │ 191.54 ms │ 253.09 µs │     256 │    270 │   56 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 578 │  191.8 ms │ 230.02 µs │     256 │    284 │   38 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 582 │ 192.03 ms │ 209.38 µs │     640 │      5 │   94 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 586 │ 192.24 ms │  58.05 µs │     640 │      5 │   94 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 588 │  192.3 ms │ 124.13 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI13BandMatrixRowI39ClimaCore_Utilities_PlusHalf_Int64___1_Li2E10AxisT ⋯
│ 590 │ 192.43 ms │ 755.32 µs │     256 │    284 │   56 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI13BandMatrixRowILin1ELi3E10AxisTensorI7Float32Li2E ⋯
│ 592 │ 193.19 ms │  56.38 µs │  4×4×16 │  216×2 │   27 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ ⋯
│ 594 │ 193.24 ms │ 271.45 µs │     256 │    284 │   40 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 596 │ 193.51 ms │ 161.37 µs │     256 │     14 │   47 │                 - │           - │            - │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_Li4E13CuDeviceArra ⋯
│ 598 │ 193.68 ms │ 219.65 µs │     256 │    284 │   40 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 600 │  193.9 ms │ 337.25 µs │     256 │     14 │   43 │                 - │           - │            - │ _Z28multiple_field_solve_kernel_10CUDADevice5TupleIS0_I5FieldI5VIJFHIS0_I10AxisTensorI7Flo ⋯
│ 602 │ 194.24 ms │  79.04 µs │     256 │    270 │   40 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 604 │ 194.32 ms │  75.58 µs │     256 │    270 │   40 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_Li ⋯
│ 608 │ 194.39 ms │ 167.13 µs │     768 │      5 │   77 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 612 │ 194.56 ms │  44.96 µs │     768 │      5 │   77 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 616 │  194.6 ms │ 233.44 µs │     768 │      5 │   79 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 620 │ 194.84 ms │  71.74 µs │     768 │      5 │   79 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 622 │ 194.92 ms │  34.69 µs │  4×4×16 │  216×2 │   29 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5EL ⋯
│ 624 │ 194.95 ms │  165.6 µs │     256 │    284 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 626 │ 195.12 ms │   8.96 µs │     4×4 │    216 │   30 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int6 ⋯
│ 628 │ 195.13 ms │   3.78 µs │     4×4 │    216 │   23 │                 - │           - │            - │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645S ⋯
│ 630 │ 195.13 ms │  78.56 µs │     256 │    270 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_ ⋯
│ 632 │ 195.21 ms │  55.46 µs │  4×4×16 │  216×2 │   33 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS ⋯
│ 634 │ 195.27 ms │  205.6 µs │     256 │    270 │   72 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeho ⋯
│ 636 │ 195.48 ms │  65.02 µs │  4×4×16 │  216×2 │   31 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10 ⋯
│ 638 │ 195.54 ms │  37.12 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 640 │ 195.58 ms │  36.16 µs │  4×4×16 │  216×2 │   31 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 642 │ 195.62 ms │ 120.25 µs │     4×4 │    216 │   58 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux ⋯
│ 644 │ 195.74 ms │  11.39 µs │       - │      - │    - │                 - │   1.055 MiB │ 90.412 GiB/s │ [set device memory]                                                                        ⋯
│ 646 │ 195.77 ms │   4.13 µs │       - │      - │    - │                 - │ 283.500 KiB │ 65.494 GiB/s │ [set device memory]                                                                        ⋯
│ 648 │ 195.77 ms │  11.94 µs │       - │      - │    - │                 - │   1.055 MiB │ 86.290 GiB/s │ [set device memory]                                                                        ⋯
│ 650 │ 195.79 ms │   4.16 µs │       - │      - │    - │                 - │ 283.500 KiB │ 64.992 GiB/s │ [set device memory]                                                                        ⋯
│ 652 │ 195.79 ms │ 102.97 µs │  4×4×16 │  216×2 │   40 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 654 │ 195.89 ms │ 108.61 µs │  4×4×16 │  216×2 │   40 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 656 │  196.0 ms │  98.75 µs │  4×4×16 │  216×2 │   39 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6 ⋯
│ 658 │  196.1 ms │ 316.86 µs │  4×4×16 │  216×2 │   62 │  9.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│ 660 │ 196.42 ms │  89.15 µs │  4×4×16 │  216×2 │   40 │  3.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeh ⋯
│ 664 │ 196.77 ms │ 192.06 µs │     256 │    203 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 666 │ 196.96 ms │  50.56 µs │     256 │    153 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 668 │ 197.01 ms │ 189.02 µs │     256 │    203 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 670 │  197.2 ms │  54.11 µs │     256 │    203 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 672 │ 197.26 ms │  17.79 µs │     256 │     51 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 674 │ 197.27 ms │  49.63 µs │     256 │    203 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 676 │ 197.32 ms │ 319.23 µs │  4×4×16 │  216×2 │   62 │  9.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9 ⋯
│ 678 │ 197.64 ms │  65.47 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_1__2_EE6SArrayIS2_ ⋯
│ 680 │ 197.71 ms │ 131.84 µs │     256 │    284 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 682 │ 197.84 ms │ 120.54 µs │  4×4×16 │  216×2 │   62 │  3.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI7Float32Li4E8SubArrayIS1_Li5E13CuDeviceArrayIS1_L ⋯
│ 684 │ 197.96 ms │  43.07 µs │  4×4×16 │  216×2 │   31 │  2.000 KiB static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│ 686 │ 198.01 ms │ 103.01 µs │     256 │    284 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 688 │ 198.11 ms │  76.48 µs │  4×4×16 │  216×2 │   32 │ 1024 bytes static │           - │            - │ _Z23copyto_spectral_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAx ⋯
│ 690 │  198.2 ms │   1.05 ms │     256 │    270 │   78 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI6_ ⋯
│ 692 │ 199.25 ms │  279.9 µs │     256 │    284 │   58 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI4_ ⋯
│ 696 │ 199.53 ms │ 247.68 µs │     512 │      5 │  115 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 700 │ 199.78 ms │   70.5 µs │     512 │      5 │  115 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 704 │ 199.85 ms │ 136.38 µs │    1024 │      5 │   64 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 708 │ 199.99 ms │  38.27 µs │    1024 │      5 │   64 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 712 │ 200.03 ms │ 240.25 µs │     512 │      5 │  115 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 716 │ 200.27 ms │   68.0 µs │     512 │      5 │  115 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 720 │ 200.34 ms │ 240.42 µs │     512 │      5 │  115 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 724 │ 200.58 ms │  68.35 µs │     512 │      5 │  115 │                 - │           - │            - │ _Z3_3515CuKernelContext13CuDeviceArrayI7Float32Li5ELi1EE11BroadcastedI12CuArrayStyleILi5E1 ⋯
│ 728 │ 200.82 ms │ 206.46 µs │     256 │    203 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 730 │ 201.03 ms │  66.46 µs │     256 │    204 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 732 │  201.1 ms │ 202.65 µs │     256 │    203 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 734 │  201.3 ms │  56.19 µs │     256 │    213 │  125 │                 - │           - │            - │ _Z21dss_transform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li5E ⋯
│ 736 │ 201.36 ms │  18.18 µs │     256 │     54 │   53 │                 - │           - │            - │ _Z17dss_local_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_I5TupleI5Int64S2_ELi1ELi1EES_IS2_L ⋯
│ 738 │ 201.37 ms │  52.29 µs │     256 │    213 │  117 │                 - │           - │            - │ _Z23dss_untransform_kernel_13CuDeviceArrayI7Float32Li4ELi1EES_IS0_Li5ELi1EE8SubArrayIS0_Li ⋯
│ 740 │ 201.43 ms │  34.72 µs │  4×4×16 │  216×2 │   29 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10NamedTupleI9__e_tot__5TupleI7Float32EELi4E13CuDeviceArrayIS2_Li5EL ⋯
│ 742 │ 201.46 ms │ 164.13 µs │     256 │    284 │   48 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxi ⋯
│ 744 │ 201.63 ms │   9.19 µs │     4×4 │    216 │   30 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int6 ⋯
│ 746 │ 201.64 ms │   3.84 µs │     4×4 │    216 │   23 │                 - │           - │            - │ _Z9knl_fill_4IJFHI7Float32Li4E8SubArrayIS0_Li4E13CuDeviceArrayIS0_Li5ELi1EE5TupleI5Int645S ⋯
│ 748 │ 201.64 ms │  78.88 µs │     256 │    270 │   33 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI10AxisTensorI7Float32Li1E5TupleI13CovariantAxisI9_ ⋯
│ 750 │ 201.72 ms │  55.14 µs │  4×4×16 │  216×2 │   33 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI10AxisTensorI7Float32Li1E5TupleI17ContravariantAxisI4_3__EE6SArrayIS ⋯
│ 752 │ 201.78 ms │ 205.53 µs │     256 │    270 │   72 │                 - │           - │            - │ _Z22copyto_stencil_kernel_5FieldI5VIJFHI7Float32Li4E13CuDeviceArrayIS1_Li5ELi1EEE16Placeho ⋯
│ 754 │ 201.99 ms │  65.82 µs │  4×4×16 │  216×2 │   31 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI8PhaseDryI7Float32ELi4E13CuDeviceArrayIS1_Li5ELi1EEE11BroadcastedI10 ⋯
│ 756 │ 202.06 ms │   36.9 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 758 │  202.1 ms │  36.42 µs │  4×4×16 │  216×2 │   31 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 760 │ 202.14 ms │ 120.32 µs │     4×4 │    216 │   58 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI10NamedTupleI73__ts___ustar___obukhov_length___buoyancy_flux_____flux ⋯
│ 762 │ 202.26 ms │   5.34 µs │     4×4 │    216 │   19 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
│ 764 │ 202.26 ms │   4.86 µs │     4×4 │    216 │   21 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
│ 766 │ 202.27 ms │  31.74 µs │  4×4×16 │  216×2 │   22 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 768 │  202.3 ms │  33.63 µs │  4×4×16 │  216×2 │   27 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 770 │ 202.34 ms │  41.18 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 772 │ 202.38 ms │  33.06 µs │  4×4×16 │  216×2 │   27 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 774 │ 202.41 ms │  31.23 µs │  4×4×16 │  216×2 │   22 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 776 │ 202.44 ms │   32.7 µs │  4×4×16 │  216×2 │   27 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 778 │ 202.48 ms │   29.6 µs │  4×4×16 │  216×2 │   22 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 780 │ 202.51 ms │  32.67 µs │  4×4×16 │  216×2 │   27 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 782 │ 202.55 ms │  30.18 µs │  4×4×16 │  216×2 │   28 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 784 │ 202.58 ms │  32.96 µs │  4×4×16 │  216×2 │   27 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 786 │ 202.61 ms │  49.92 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 788 │ 202.66 ms │  32.67 µs │  4×4×16 │  216×2 │   27 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 790 │  202.7 ms │  50.69 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 792 │ 202.75 ms │  32.96 µs │  4×4×16 │  216×2 │   27 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 794 │ 202.78 ms │   49.6 µs │  4×4×16 │  216×2 │   32 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 796 │ 202.83 ms │  33.06 µs │  4×4×16 │  216×2 │   27 │                 - │           - │            - │ _Z11knl_copyto_5VIJFHI7Float32Li4E13CuDeviceArrayIS0_Li5ELi1EEE11BroadcastedI10VIJFHStyleI ⋯
│ 798 │ 202.88 ms │   5.47 µs │     4×4 │    216 │   22 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
│ 800 │ 202.88 ms │   4.51 µs │     4×4 │    216 │   21 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
│ 802 │ 202.89 ms │   10.3 µs │     4×4 │    216 │   19 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
│ 804 │  202.9 ms │   5.44 µs │     4×4 │    216 │   21 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
│ 806 │  202.9 ms │   3.65 µs │     4×4 │    216 │   19 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
│ 808 │ 202.91 ms │   5.47 µs │     4×4 │    216 │   21 │                 - │           - │            - │ _Z11knl_copyto_4IJFHI7Float32Li4E13CuDeviceArrayIS0_Li4ELi1EEE11BroadcastedI9IJFHStyleILi4 ⋯
└─────┴───────────┴───────────┴─────────┴────────┴──────┴───────────────────┴─────────────┴──────────────┴─────────────────────────────────────────────────────────────────────────────────────────────
                                                                                                                                                                                       1 column omitted

[ Info: (#)x entries have been multiplied by corresponding factors in order to compute percentages
┌─────────────────────┬────────────┬──────────┬───────────┬────────────┬───────────┬───────────┬───────────┬──────────────────┐
│ Function            │     Memory │   allocs │      Time │       Time │      Time │      Time │ N-samples │ step! percentage │
│                     │   estimate │ estimate │       min │        max │      mean │    median │           │                  │
├─────────────────────┼────────────┼──────────┼───────────┼────────────┼───────────┼───────────┼───────────┼──────────────────┤
│ Wfact (3x)          │  35.58 KiB │     1104 │  6.830 ms │  57.416 ms │ 38.465 ms │ 56.796 ms │        10 │          17.5461 │
│ ldiv! (3x)          │  23.81 KiB │     1020 │ 14.086 ms │  57.116 ms │ 52.566 ms │ 56.787 ms │        10 │          36.1898 │
│ T_imp! (3x)         │  16.31 KiB │      864 │ 14.184 ms │  24.836 ms │ 23.616 ms │ 24.653 ms │        10 │          36.4403 │
│ T_exp_T_lim! (4x)   │  51.44 KiB │     1776 │ 15.526 ms │ 131.409 ms │ 35.957 ms │ 15.799 ms │        10 │          39.8879 │
│ lim! (4x)           │  128 bytes │        8 │ 34.800 μs │  38.000 μs │ 35.640 μs │ 35.000 μs │        10 │        0.0894071 │
│ dss! (4x)           │  27.12 KiB │     1256 │ 25.866 ms │  26.830 ms │ 26.155 ms │ 25.979 ms │        10 │          66.4551 │
│ post_explicit! (3x) │  26.09 KiB │     1083 │ 25.018 ms │  25.415 ms │ 25.145 ms │ 25.100 ms │        10 │          64.2752 │
│ post_implicit! (4x) │  34.78 KiB │     1444 │ 32.992 ms │  33.870 ms │ 33.236 ms │ 33.179 ms │        10 │           84.762 │
│ step! (1x)          │ 278.23 KiB │     3962 │ 38.923 ms │ 352.252 ms │ 89.016 ms │ 45.617 ms │        10 │            100.0 │
└─────────────────────┴────────────┴──────────┴───────────┴────────────┴───────────┴───────────┴───────────┴──────────────────┘
Test Summary:              |Time
Benchmark allocation tests | None  0.0s