open-compass / opencompass

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.
https://opencompass.org.cn/
Apache License 2.0
4.13k stars 438 forks source link

[Bug] tools/eval__bench.py is always timing out #608

Closed findalexli closed 11 months ago

findalexli commented 12 months ago

Prerequisite

Type

I'm evaluating with the officially supported tasks/models/datasets.

Environment

{'CUDA available': True, 'CUDA_HOME': '/usr/local/cuda', 'GCC': 'gcc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0', 'GPU 0': 'NVIDIA A100 80GB PCIe', 'MMEngine': '0.9.1', 'NVCC': 'Cuda compilation tools, release 12.2, V12.2.128', 'OpenCV': '4.8.1', 'PyTorch': '2.0.1+cu117', 'PyTorch compiling details': 'PyTorch built with:\n' ' - GCC 9.3\n' ' - C++ Version: 201703\n' ' - Intel(R) oneAPI Math Kernel Library Version ' '2022.2-Product Build 20220804 for Intel(R) 64 ' 'architecture applications\n' ' - Intel(R) MKL-DNN v2.7.3 (Git Hash ' '6dbeffbae1f23cbbeae17adb7b5b13f1f37c080e)\n' ' - OpenMP 201511 (a.k.a. OpenMP 4.5)\n' ' - LAPACK is enabled (usually provided by ' 'MKL)\n' ' - NNPACK is enabled\n' ' - CPU capability usage: AVX2\n' ' - CUDA Runtime 11.7\n' ' - NVCC architecture flags: ' '-gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86\n' ' - CuDNN 8.5\n' ' - Magma 2.6.1\n' ' - Build settings: BLAS_INFO=mkl, ' 'BUILD_TYPE=Release, CUDA_VERSION=11.7, ' 'CUDNN_VERSION=8.5.0, ' 'CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, ' 'CXX_FLAGS= -D_GLIBCXX_USE_CXX11_ABI=0 ' '-fabi-version=11 -Wno-deprecated ' '-fvisibility-inlines-hidden -DUSE_PTHREADPOOL ' '-DNDEBUG -DUSE_KINETO -DLIBKINETO_NOROCTRACER ' '-DUSE_FBGEMM -DUSE_QNNPACK ' '-DUSE_PYTORCH_QNNPACK -DUSE_XNNPACK ' '-DSYMBOLICATE_MOBILE_DEBUG_HANDLE -O2 -fPIC ' '-Wall -Wextra -Werror=return-type ' '-Werror=non-virtual-dtor -Werror=bool-operation ' '-Wnarrowing -Wno-missing-field-initializers ' '-Wno-type-limits -Wno-array-bounds ' '-Wno-unknown-pragmas -Wunused-local-typedefs ' '-Wno-unused-parameter -Wno-unused-function ' '-Wno-unused-result -Wno-strict-overflow ' '-Wno-strict-aliasing ' '-Wno-error=deprecated-declarations ' '-Wno-stringop-overflow -Wno-psabi ' '-Wno-error=pedantic -Wno-error=redundant-decls ' '-Wno-error=old-style-cast ' '-fdiagnostics-color=always -faligned-new ' '-Wno-unused-but-set-variable ' '-Wno-maybe-uninitialized -fno-math-errno ' '-fno-trapping-math -Werror=format ' '-Werror=cast-function-type ' '-Wno-stringop-overflow, LAPACK_INFO=mkl, ' 'PERF_WITH_AVX=1, PERF_WITH_AVX2=1, ' 'PERF_WITH_AVX512=1, ' 'TORCH_DISABLE_GPU_ASSERTS=ON, ' 'TORCH_VERSION=2.0.1, USE_CUDA=ON, USE_CUDNN=ON, ' 'USE_EXCEPTION_PTR=1, USE_GFLAGS=OFF, ' 'USE_GLOG=OFF, USE_MKL=ON, USE_MKLDNN=ON, ' 'USE_MPI=OFF, USE_NCCL=1, USE_NNPACK=ON, ' 'USE_OPENMP=ON, USE_ROCM=OFF, \n', 'Python': '3.10.13 | packaged by conda-forge | (main, Oct 26 2023, 18:07:37) ' '[GCC 12.3.0]', 'TorchVision': '0.15.2+cu117', 'numpy_random_seed': 2147483648, 'opencompass': '0.1.8+91fba2c', 'sys.platform': 'linux'}

Reproduces the problem - code/configuration sample

Running the script against a llava output

Reproduces the problem - command or script

(llava) ubuntu@myVm:~/opencompass/tools$ python eval_mmbench.py /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b.xlsx --meta /home/ubuntu/LLaVA/playground/data/eval/mmbench/mmbench_dev_20230712.tsv

Reproduces the problem - error message

40%|███████████████████████████████████████████████████████▌ 41%|███████████████████████████████████████████████████████▉ 41%|████████████████████████████████████████████████████████ 41%|████████████████████████████████████████████████████████▏ | 479/1176 [04:42<10:08, 1.15it/s]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 480/1176, Acc: 54.58%. 41%|████████████████████████████████████████████████████████▎ 41%|████████████████████████████████████████████████████████▍ 41%|████████████████████████████████████████████████████████▌ | 482/1176 [04:47<14:54, 1.29s/it]A might be a quantifier in the string: The correct statement is: A green ellipse is below a yellow rectangle.. A might be a quantifier in the string: The correct statement is: A green ellipse is above a yellow rectangle.. 41%|████████████████████████████████████████████████████████▊ 41%|████████████████████████████████████████████████████████▉ 41%|█████████████████████████████████████████████████████████ 41%|█████████████████████████████████████████████████████████▏ 41%|█████████████████████████████████████████████████████████▎ 42%|█████████████████████████████████████████████████████████▍ | 489/1176 [05:00<18:51, 1.65s/it]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 490/1176, Acc: 54.29%. 42%|█████████████████████████████████████████████████████████▌ 42%|█████████████████████████████████████████████████████████▋ 42%|█████████████████████████████████████████████████████████▊ 42%|█████████████████████████████████████████████████████████▉ 42%|██████████████████████████████████████████████████████████▏ 42%|██████████████████████████████████████████████████████████▎ 42%|██████████████████████████████████████████████████████████▍ | 498/1176 [05:21<26:32, 2.35s/it]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 500/1176, Acc: 54.40%. A might be a quantifier in the string: A. A bus driving on the road. A might be a quantifier in the string: B. A bus driving on the road. A might be a quantifier in the string: C. A bus driving on the road. A might be a quantifier in the string: C. A little boy brushing his teeth naked. 43%|██████████████████████████████████████████████████████████▉ | 502/1176 [05:22<12:11, 1.09s/it]A might be a quantifier in the string: C. A cow is eating grass.. A might be a quantifier in the string: A. A cow is eating grass. A might be a quantifier in the string: B. A cow is eating grass.. A might be a quantifier in the string: B. A man is playing tennis.. A might be a quantifier in the string: C. A man is playing tennis.. A might be a quantifier in the string: A. A man is playing tennis. 43%|███████████████████████████████████████████████████████████▎ 43%|███████████████████████████████████████████████████████████▍ | 506/1176 [05:24<09:33, 1.17it/s]A might be a quantifier in the string: C. A man surfing. A might be a quantifier in the string: B. A woman surfing. 43%|███████████████████████████████████████████████████████████▌ | 508/1176 [05:28<13:27, 1.21s/it]A might be a quantifier in the string: A. A man is holding a hot dog.. A might be a quantifier in the string: A. A toy bear and a toy dog. Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 510/1176, Acc: 54.31%. 44%|████████████████████████████████████████████████████████████▉ | 519/1176 [05:29<04:27, 2.46it/s]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 520/1176, Acc: 54.23%. Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 530/1176, Acc: 54.72%. 45%|██████████████████████████████████████████████████████████████▋ 46%|██████████████████████████████████████████████████████████████▉ 46%|███████████████████████████████████████████████████████████████ 46%|███████████████████████████████████████████████████████████████▏ | 538/1176 [05:35<04:47, 2.22it/s]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 540/1176, Acc: 54.81%. 46%|███████████████████████████████████████████████████████████████▎ 46%|███████████████████████████████████████████████████████████████▉ 47%|████████████████████████████████████████████████████████████████▎ 47%|████████████████████████████████████████████████████████████████▍ | 549/1176 [05:43<07:07, 1.47it/s]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 550/1176, Acc: 54.18%. 47%|████████████████████████████████████████████████████████████████▌ 47%|████████████████████████████████████████████████████████████████▋ 47%|████████████████████████████████████████████████████████████████▊ 47%|████████████████████████████████████████████████████████████████▉ 47%|█████████████████████████████████████████████████████████████████ 47%|█████████████████████████████████████████████████████████████████▏ 47%|█████████████████████████████████████████████████████████████████▏ 47%|█████████████████████████████████████████████████████████████████▎ | 557/1176 [05:57<12:22, 1.20s/it]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 560/1176, Acc: 53.93%. 48%|██████████████████████████████████████████████████████████████████▏ | 564/1176 [05:58<04:39, 2.19it/s]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 570/1176, Acc: 54.74%. 49%|███████████████████████████████████████████████████████████████████▋ 49%|███████████████████████████████████████████████████████████████████▊ | 578/1176 [06:03<04:27, 2.23it/s]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 580/1176, Acc: 55.34%. 49%|████████████████████████████████████████████████████████████████████▏ 49%|████████████████████████████████████████████████████████████████████▎ | 582/1176 [06:05<04:52, 2.03it/s]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 590/1176, Acc: 55.42%.

Other information

The openai query seem to be timing out. I was trying to simply run the script, but it does not progress at all.

kennymckormick commented 12 months ago

Hi, @findalexli , I'm not sure what is the problem. According to your log, the progress bar seems to be updating (though slowly). Do you mean the GPT API call is too slow, or the GPT API call timeout and generate invalid outputs?

kennymckormick commented 11 months ago

Closed due to no response. Feel free to reopen if needed.