Closed findalexli closed 11 months ago
Hi, @findalexli , I'm not sure what is the problem. According to your log, the progress bar seems to be updating (though slowly). Do you mean the GPT API call is too slow, or the GPT API call timeout and generate invalid outputs?
Closed due to no response. Feel free to reopen if needed.
Prerequisite
Type
I'm evaluating with the officially supported tasks/models/datasets.
Environment
{'CUDA available': True, 'CUDA_HOME': '/usr/local/cuda', 'GCC': 'gcc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0', 'GPU 0': 'NVIDIA A100 80GB PCIe', 'MMEngine': '0.9.1', 'NVCC': 'Cuda compilation tools, release 12.2, V12.2.128', 'OpenCV': '4.8.1', 'PyTorch': '2.0.1+cu117', 'PyTorch compiling details': 'PyTorch built with:\n' ' - GCC 9.3\n' ' - C++ Version: 201703\n' ' - Intel(R) oneAPI Math Kernel Library Version ' '2022.2-Product Build 20220804 for Intel(R) 64 ' 'architecture applications\n' ' - Intel(R) MKL-DNN v2.7.3 (Git Hash ' '6dbeffbae1f23cbbeae17adb7b5b13f1f37c080e)\n' ' - OpenMP 201511 (a.k.a. OpenMP 4.5)\n' ' - LAPACK is enabled (usually provided by ' 'MKL)\n' ' - NNPACK is enabled\n' ' - CPU capability usage: AVX2\n' ' - CUDA Runtime 11.7\n' ' - NVCC architecture flags: ' '-gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86\n' ' - CuDNN 8.5\n' ' - Magma 2.6.1\n' ' - Build settings: BLAS_INFO=mkl, ' 'BUILD_TYPE=Release, CUDA_VERSION=11.7, ' 'CUDNN_VERSION=8.5.0, ' 'CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, ' 'CXX_FLAGS= -D_GLIBCXX_USE_CXX11_ABI=0 ' '-fabi-version=11 -Wno-deprecated ' '-fvisibility-inlines-hidden -DUSE_PTHREADPOOL ' '-DNDEBUG -DUSE_KINETO -DLIBKINETO_NOROCTRACER ' '-DUSE_FBGEMM -DUSE_QNNPACK ' '-DUSE_PYTORCH_QNNPACK -DUSE_XNNPACK ' '-DSYMBOLICATE_MOBILE_DEBUG_HANDLE -O2 -fPIC ' '-Wall -Wextra -Werror=return-type ' '-Werror=non-virtual-dtor -Werror=bool-operation ' '-Wnarrowing -Wno-missing-field-initializers ' '-Wno-type-limits -Wno-array-bounds ' '-Wno-unknown-pragmas -Wunused-local-typedefs ' '-Wno-unused-parameter -Wno-unused-function ' '-Wno-unused-result -Wno-strict-overflow ' '-Wno-strict-aliasing ' '-Wno-error=deprecated-declarations ' '-Wno-stringop-overflow -Wno-psabi ' '-Wno-error=pedantic -Wno-error=redundant-decls ' '-Wno-error=old-style-cast ' '-fdiagnostics-color=always -faligned-new ' '-Wno-unused-but-set-variable ' '-Wno-maybe-uninitialized -fno-math-errno ' '-fno-trapping-math -Werror=format ' '-Werror=cast-function-type ' '-Wno-stringop-overflow, LAPACK_INFO=mkl, ' 'PERF_WITH_AVX=1, PERF_WITH_AVX2=1, ' 'PERF_WITH_AVX512=1, ' 'TORCH_DISABLE_GPU_ASSERTS=ON, ' 'TORCH_VERSION=2.0.1, USE_CUDA=ON, USE_CUDNN=ON, ' 'USE_EXCEPTION_PTR=1, USE_GFLAGS=OFF, ' 'USE_GLOG=OFF, USE_MKL=ON, USE_MKLDNN=ON, ' 'USE_MPI=OFF, USE_NCCL=1, USE_NNPACK=ON, ' 'USE_OPENMP=ON, USE_ROCM=OFF, \n', 'Python': '3.10.13 | packaged by conda-forge | (main, Oct 26 2023, 18:07:37) ' '[GCC 12.3.0]', 'TorchVision': '0.15.2+cu117', 'numpy_random_seed': 2147483648, 'opencompass': '0.1.8+91fba2c', 'sys.platform': 'linux'}
Reproduces the problem - code/configuration sample
Running the script against a llava output
Reproduces the problem - command or script
(llava) ubuntu@myVm:~/opencompass/tools$ python eval_mmbench.py /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b.xlsx --meta /home/ubuntu/LLaVA/playground/data/eval/mmbench/mmbench_dev_20230712.tsv
Reproduces the problem - error message
40%|███████████████████████████████████████████████████████▌ 41%|███████████████████████████████████████████████████████▉ 41%|████████████████████████████████████████████████████████ 41%|████████████████████████████████████████████████████████▏ | 479/1176 [04:42<10:08, 1.15it/s]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 480/1176, Acc: 54.58%. 41%|████████████████████████████████████████████████████████▎ 41%|████████████████████████████████████████████████████████▍ 41%|████████████████████████████████████████████████████████▌ | 482/1176 [04:47<14:54, 1.29s/it]A might be a quantifier in the string: The correct statement is: A green ellipse is below a yellow rectangle.. A might be a quantifier in the string: The correct statement is: A green ellipse is above a yellow rectangle.. 41%|████████████████████████████████████████████████████████▊ 41%|████████████████████████████████████████████████████████▉ 41%|█████████████████████████████████████████████████████████ 41%|█████████████████████████████████████████████████████████▏ 41%|█████████████████████████████████████████████████████████▎ 42%|█████████████████████████████████████████████████████████▍ | 489/1176 [05:00<18:51, 1.65s/it]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 490/1176, Acc: 54.29%. 42%|█████████████████████████████████████████████████████████▌ 42%|█████████████████████████████████████████████████████████▋ 42%|█████████████████████████████████████████████████████████▊ 42%|█████████████████████████████████████████████████████████▉ 42%|██████████████████████████████████████████████████████████▏ 42%|██████████████████████████████████████████████████████████▎ 42%|██████████████████████████████████████████████████████████▍ | 498/1176 [05:21<26:32, 2.35s/it]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 500/1176, Acc: 54.40%. A might be a quantifier in the string: A. A bus driving on the road. A might be a quantifier in the string: B. A bus driving on the road. A might be a quantifier in the string: C. A bus driving on the road. A might be a quantifier in the string: C. A little boy brushing his teeth naked. 43%|██████████████████████████████████████████████████████████▉ | 502/1176 [05:22<12:11, 1.09s/it]A might be a quantifier in the string: C. A cow is eating grass.. A might be a quantifier in the string: A. A cow is eating grass. A might be a quantifier in the string: B. A cow is eating grass.. A might be a quantifier in the string: B. A man is playing tennis.. A might be a quantifier in the string: C. A man is playing tennis.. A might be a quantifier in the string: A. A man is playing tennis. 43%|███████████████████████████████████████████████████████████▎ 43%|███████████████████████████████████████████████████████████▍ | 506/1176 [05:24<09:33, 1.17it/s]A might be a quantifier in the string: C. A man surfing. A might be a quantifier in the string: B. A woman surfing. 43%|███████████████████████████████████████████████████████████▌ | 508/1176 [05:28<13:27, 1.21s/it]A might be a quantifier in the string: A. A man is holding a hot dog.. A might be a quantifier in the string: A. A toy bear and a toy dog. Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 510/1176, Acc: 54.31%. 44%|████████████████████████████████████████████████████████████▉ | 519/1176 [05:29<04:27, 2.46it/s]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 520/1176, Acc: 54.23%. Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 530/1176, Acc: 54.72%. 45%|██████████████████████████████████████████████████████████████▋ 46%|██████████████████████████████████████████████████████████████▉ 46%|███████████████████████████████████████████████████████████████ 46%|███████████████████████████████████████████████████████████████▏ | 538/1176 [05:35<04:47, 2.22it/s]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 540/1176, Acc: 54.81%. 46%|███████████████████████████████████████████████████████████████▎ 46%|███████████████████████████████████████████████████████████████▉ 47%|████████████████████████████████████████████████████████████████▎ 47%|████████████████████████████████████████████████████████████████▍ | 549/1176 [05:43<07:07, 1.47it/s]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 550/1176, Acc: 54.18%. 47%|████████████████████████████████████████████████████████████████▌ 47%|████████████████████████████████████████████████████████████████▋ 47%|████████████████████████████████████████████████████████████████▊ 47%|████████████████████████████████████████████████████████████████▉ 47%|█████████████████████████████████████████████████████████████████ 47%|█████████████████████████████████████████████████████████████████▏ 47%|█████████████████████████████████████████████████████████████████▏ 47%|█████████████████████████████████████████████████████████████████▎ | 557/1176 [05:57<12:22, 1.20s/it]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 560/1176, Acc: 53.93%. 48%|██████████████████████████████████████████████████████████████████▏ | 564/1176 [05:58<04:39, 2.19it/s]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 570/1176, Acc: 54.74%. 49%|███████████████████████████████████████████████████████████████████▋ 49%|███████████████████████████████████████████████████████████████████▊ | 578/1176 [06:03<04:27, 2.23it/s]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 580/1176, Acc: 55.34%. 49%|████████████████████████████████████████████████████████████████████▏ 49%|████████████████████████████████████████████████████████████████████▎ | 582/1176 [06:05<04:52, 2.03it/s]Evaluating /home/ubuntu/LLaVA/playground/data/eval/mmbench/answers_upload/mmbench_dev_20230712/llava-v1.5-13b-steer-lora-1118-2e-4.xlsx: 590/1176, Acc: 55.42%.
Other information
The openai query seem to be timing out. I was trying to simply run the script, but it does not progress at all.