Change the 2-nd config of lerp.

该配置在文生图模型中用到，性能差于pytorch 1600+倍。详情如下：

[16, 1, 1, 1] [16, 3, 224, 224]

paddle


run command: nvprof --profile-from-start off /work/.virtualenvs_cuda11.2/paddle_py38/bin/python /work/benchmark/api/dynamic_tests_v2/lerp.py --task speed --framework paddle --testing_mode dynamic --json_file /work/benchmark/api/tests_v2/configs/lerp.json --config_id 2 --profiler nvprof --backward True --use_gpu True --repeat 1000 --allow_adaptive_repeat False --unknown_dim 16 --log_level 0
        Type  Time(%)      Time     Calls       Avg       Min       Max  Name
GPU activities:   99.86%  165.087s      1000  165.09ms  164.94ms  169.69ms  void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, int=4, int=1, long>, int=0, Eigen::MakePointer>, Eigen::TensorReshapingOp<Eigen::DSizes<long, int=4> const , Eigen::TensorReductionOp<Eigen::internal::SumReducer<float>, Eigen::DSizes<int, int=4> const , Eigen::TensorReshapingOp<Eigen::DSizes<int, int=8> const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorCwiseUnaryOp<Eigen::internal::bind1st_op<Eigen::internal::scalar_difference_op<float const , float const >>, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const > const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const > const , Eigen::MakePointer> const > const > const , Eigen::GpuDevice>, long>(float, int=4)
                0.08%  137.83ms      1000  137.83us  136.57us  146.27us  void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, int=4, int=1, long>, int=0, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_difference_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const > const > const > const > const , Eigen::GpuDevice>, long>(float, int=4)
                0.06%  99.623ms      1000  99.622us  98.622us  101.15us  void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, int=4, int=1, long>, int=0, Eigen::MakePointer>, Eigen::TensorReshapingOp<Eigen::DSizes<long, int=4> const , Eigen::TensorReductionOp<Eigen::internal::SumReducer<float>, Eigen::DSizes<int, int=4> const , Eigen::TensorReshapingOp<Eigen::DSizes<int, int=8> const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const > const , Eigen::MakePointer> const > const > const , Eigen::GpuDevice>, long>(float, int=4)
                0.00%  1.6588ms      1000  1.6580us  1.6000us  2.0160us  [CUDA memcpy HtoD]

total gpu_time: 165318.4458 ms


- pytorch

total gpu_time: 102.4717 ms


其他几个配置也差于pytorch，没有加入默认测试配置，在pr中记录一下：

**配置一（在OP Benchmark中）：[16, 102400] [16, 102400]**

- paddle

run command: nvprof --profile-from-start off /work/.virtualenvs_cuda11.2/paddle_py38/bin/python /work/benchmark/api/dynamic_tests_v2/lerp.py --task speed --framework paddle --testing_mode dynamic --json_file /work/benchmark/api/tests_v2/configs/lerp.json --config_id 0 --profiler nvprof --backward True --use_gpu True --repeat 1000 --allow_adaptive_repeat False --unknown_dim 16 --log_level 0 Type Time(%) Time Calls Avg Min Max Name GPU activities: 37.21% 47.044ms 1000 47.044us 45.728us 48.607us void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, int=2, int=1, long>, int=0, Eigen::MakePointer>, Eigen::TensorReshapingOp<Eigen::DSizes<long, int=2> const , Eigen::TensorReductionOp<Eigen::internal::SumReducer, Eigen::DSizes<int, int=2> const , Eigen::TensorReshapingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorCwiseUnaryOp<Eigen::internal::bind1st_op<Eigen::internal::scalar_difference_op<float const , float const >>, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=2> const , Eigen::TensorMap<Eigen::Tensor<float const , int=2, int=1, long>, int=0, Eigen::MakePointer> const > const > const , Eigen::TensorMap<Eigen::Tensor<float const , int=2, int=1, long>, int=0, Eigen::MakePointer> const > const > const , Eigen::MakePointer> const > const > const , Eigen::GpuDevice>, long>(float, int=2) 37.12% 46.935ms 1000 46.934us 45.248us 49.152us void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, int=2, int=1, long>, int=0, Eigen::MakePointer>, Eigen::TensorReshapingOp<Eigen::DSizes<long, int=2> const , Eigen::TensorReductionOp<Eigen::internal::SumReducer, Eigen::DSizes<int, int=2> const , Eigen::TensorReshapingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=2> const , Eigen::TensorMap<Eigen::Tensor<float const , int=2, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorMap<Eigen::Tensor<float const , int=2, int=1, long>, int=0, Eigen::MakePointer> const > const > const , Eigen::MakePointer> const > const > const , Eigen::GpuDevice>, long>(float, int=2) 24.30% 30.724ms 1000 30.724us 29.376us 33.088us void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, int=2, int=1, long>, int=0, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=2> const , Eigen::TensorMap<Eigen::Tensor<float const , int=2, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=2> const , Eigen::TensorMap<Eigen::Tensor<float const , int=2, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_difference_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=2> const , Eigen::TensorMap<Eigen::Tensor<float const , int=2, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=2> const , Eigen::TensorMap<Eigen::Tensor<float const , int=2, int=1, long>, int=0, Eigen::MakePointer> const > const > const > const > const > const , Eigen::GpuDevice>, long>(float, int=2) 1.37% 1.7364ms 1000 1.7360us 1.6960us 2.1120us [CUDA memcpy HtoD]

total gpu_time: 126.4284 ms


- pytorch

total gpu_time: 67.3168 ms


**配置二：[16, 3, 224, 224] [16, 3, 224, 224]**

- paddle

run command: nvprof --profile-from-start off /work/.virtualenvs_cuda11.2/paddle_py38/bin/python /work/benchmark/api/dynamic_tests_v2/lerp.py --task speed --framework paddle --testing_mode dynamic --json_file /work/benchmark/api/tests_v2/configs/lerp.json --config_id 1 --profiler nvprof --backward True --use_gpu True --repeat 1000 --allow_adaptive_repeat False --unknown_dim 16 --log_level 0 Type Time(%) Time Calls Avg Min Max Name GPU activities: 38.58% 103.63ms 1000 103.63us 98.495us 115.94us void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, int=4, int=1, long>, int=0, Eigen::MakePointer>, Eigen::TensorReshapingOp<Eigen::DSizes<long, int=4> const , Eigen::TensorReductionOp<Eigen::internal::SumReducer, Eigen::DSizes<int, int=4> const , Eigen::TensorReshapingOp<Eigen::DSizes<int, int=8> const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const > const , Eigen::MakePointer> const > const > const , Eigen::GpuDevice>, long>(float, int=4) 38.53% 103.50ms 1000 103.50us 98.464us 115.62us void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, int=4, int=1, long>, int=0, Eigen::MakePointer>, Eigen::TensorReshapingOp<Eigen::DSizes<long, int=4> const , Eigen::TensorReductionOp<Eigen::internal::SumReducer, Eigen::DSizes<int, int=4> const , Eigen::TensorReshapingOp<Eigen::DSizes<int, int=8> const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorCwiseUnaryOp<Eigen::internal::bind1st_op<Eigen::internal::scalar_difference_op<float const , float const >>, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const > const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const > const , Eigen::MakePointer> const > const > const , Eigen::GpuDevice>, long>(float, int=4) 22.25% 59.775ms 1000 59.775us 54.720us 68.064us void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, int=4, int=1, long>, int=0, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_difference_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const > const > const > const > const , Eigen::GpuDevice>, long>(float, int=4) 0.63% 1.6985ms 1000 1.6980us 1.6320us 2.1120us [CUDA memcpy HtoD]

total gpu_time: 268.6107 ms


- pytorch

total gpu_time: 92.6869 ms


**配置三：[16, 1, 224, 224] [16, 3, 224, 224]**

- paddle

run command: nvprof --profile-from-start off /work/.virtualenvs_cuda11.2/paddle_py38/bin/python /work/benchmark/api/dynamic_tests_v2/lerp.py --task speed --framework paddle --testing_mode dynamic --json_file /work/benchmark/api/tests_v2/configs/lerp.json --config_id 3 --profiler nvprof --backward True --use_gpu True --repeat 1000 --allow_adaptive_repeat False --unknown_dim 16 --log_level 0 Type Time(%) Time Calls Avg Min Max Name GPU activities: 43.74% 150.79ms 1000 150.79us 137.09us 161.15us void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, int=4, int=1, long>, int=0, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_difference_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const > const > const > const > const , Eigen::GpuDevice>, long>(float, int=4) 31.49% 108.56ms 1000 108.56us 99.231us 116.06us void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, int=4, int=1, long>, int=0, Eigen::MakePointer>, Eigen::TensorReshapingOp<Eigen::DSizes<long, int=4> const , Eigen::TensorReductionOp<Eigen::internal::SumReducer, Eigen::DSizes<int, int=4> const , Eigen::TensorReshapingOp<Eigen::DSizes<int, int=8> const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float const , float const >, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const > const , Eigen::MakePointer> const > const > const , Eigen::GpuDevice>, long>(float, int=4) 24.27% 83.661ms 1000 83.661us 76.672us 89.216us void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, int=4, int=1, long>, int=0, Eigen::MakePointer>, Eigen::TensorReshapingOp<Eigen::DSizes<long, int=4> const , Eigen::TensorReductionOp<Eigen::internal::SumReducer, Eigen::DSizes<int, int=4> const , Eigen::TensorReshapingOp<Eigen::DSizes<int, int=8> const , Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorCwiseUnaryOp<Eigen::internal::bind1st_op<Eigen::internal::scalar_difference_op<float const , float const >>, Eigen::TensorBroadcastingOp<Eigen::DSizes<int, int=4> const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const > const , Eigen::TensorMap<Eigen::Tensor<float const , int=4, int=1, long>, int=0, Eigen::MakePointer> const > const > const , Eigen::MakePointer> const > const > const , Eigen::GpuDevice>, long>(float, int=4) 0.49% 1.7063ms 1000 1.7060us 1.6310us 2.1120us [CUDA memcpy HtoD]

total gpu_time: 344.7417 ms


- pytorch

total gpu_time: 112.2307 ms

PaddlePaddle / benchmark

Change the 2-nd config of lerp. #1530