bigcode-project / bigcode-evaluation-harness

A framework for the evaluation of autoregressive code generation language models.
Apache License 2.0
698 stars 180 forks source link

Following submission documentation fails to save generated model outputs for our(Jdoodle) private HF model #242

Closed anil-gurbuz closed 1 week ago

anil-gurbuz commented 3 weeks ago

Hi,

First of all thanks for preparing this benchmark!

I have been trying to replicate the performance of our not-yet-opensourced model and have faced with an issues that I couldn't find a solution.

The problem I am facing with is, while follwoing the submission documentation here at 2nd step (Generation), the sample command provided generates responses from my local HF model but it fails to save them so I am not able to investigate the issues and also progress to upcoming steps.

I would really appriciate any help with tha.

No errors are faced while running the benchmark, attaching the logs when I run the benchmark with a limit of 5 questions for debugging purposes.

Logs:

Running task humaneval The following values were not passed to accelerate launch and had defaults used instead: --num_processes was set to a value of 1 --num_machines was set to a value of 1 --mixed_precision was set to a value of 'no' --dynamo_backend was set to a value of 'no' To avoid this warning pass in values for each of the problematic parameters or run accelerate config. Selected Tasks: ['humaneval'] Loading model in bf16 Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00, 3.15s/it] generation mode only Downloading readme: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6.52k/6.52k [00:00<00:00, 18.8MB/s] Downloading data: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 83.9k/83.9k [00:00<00:00, 480kB/s] Generating test split: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 164/164 [00:00<00:00, 28154.30 examples/s] number of problems for this task is 5 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:23<00:00, 2.38s/it] Task humaneval done Running task multiple-js The following values were not passed to accelerate launch and had defaults used instead: --num_processes was set to a value of 1 --num_machines was set to a value of 1 --mixed_precision was set to a value of 'no' --dynamo_backend was set to a value of 'no' To avoid this warning pass in values for each of the problematic parameters or run accelerate config. Selected Tasks: ['multiple-js'] Loading model in bf16 Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00, 3.35s/it] generation mode only /home/anil/.local/lib/python3.9/site-packages/datasets/load.py:1491: FutureWarning: The repository for nuprl/MultiPL-E contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/nuprl/MultiPL-E You can avoid this message in future by passing the argument trust_remote_code=True. Passing trust_remote_code=True will be mandatory to load this dataset from the next major release of datasets. warnings.warn( Downloading builder script: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.05k/4.05k [00:00<00:00, 16.6MB/s] Downloading metadata: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 478k/478k [00:00<00:00, 11.3MB/s] Downloading readme: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 99.6k/99.6k [00:00<00:00, 5.18MB/s] Downloading data: 218kB [00:00, 40.0MB/s]
Generating test split: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 161/161 [00:00<00:00, 9848.94 examples/s] Downloading builder script: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.05k/4.05k [00:00<00:00, 14.1MB/s] Downloading metadata: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 478k/478k [00:00<00:00, 9.38MB/s] Downloading readme: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 99.6k/99.6k [00:00<00:00, 5.30MB/s] number of problems for this task is 5 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:48<00:00, 4.89s/it] Task multiple-js done Running task multiple-java The following values were not passed to accelerate launch and had defaults used instead: --num_processes was set to a value of 1 --num_machines was set to a value of 1 --mixed_precision was set to a value of 'no' --dynamo_backend was set to a value of 'no' To avoid this warning pass in values for each of the problematic parameters or run accelerate config. Selected Tasks: ['multiple-java'] Loading model in bf16 Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00, 3.11s/it] generation mode only /home/anil/.local/lib/python3.9/site-packages/datasets/load.py:1491: FutureWarning: The repository for nuprl/MultiPL-E contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/nuprl/MultiPL-E You can avoid this message in future by passing the argument trust_remote_code=True. Passing trust_remote_code=True will be mandatory to load this dataset from the next major release of datasets. warnings.warn( Downloading data: 321kB [00:00, 50.4MB/s]
Generating test split: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 158/158 [00:00<00:00, 10395.46 examples/s] number of problems for this task is 5 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:52<00:00, 5.22s/it] Task multiple-java done Running task multiple-cpp The following values were not passed to accelerate launch and had defaults used instead: --num_processes was set to a value of 1 --num_machines was set to a value of 1 --mixed_precision was set to a value of 'no' --dynamo_backend was set to a value of 'no' To avoid this warning pass in values for each of the problematic parameters or run accelerate config. Selected Tasks: ['multiple-cpp'] Loading model in bf16 Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00, 3.10s/it] generation mode only /home/anil/.local/lib/python3.9/site-packages/datasets/load.py:1491: FutureWarning: The repository for nuprl/MultiPL-E contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/nuprl/MultiPL-E You can avoid this message in future by passing the argument trust_remote_code=True. Passing trust_remote_code=True will be mandatory to load this dataset from the next major release of datasets. warnings.warn( Downloading data: 272kB [00:00, 44.7MB/s]
Generating test split: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 161/161 [00:00<00:00, 10762.17 examples/s] number of problems for this task is 5 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:46<00:00, 4.69s/it] Task multiple-cpp done Running task multiple-swift The following values were not passed to accelerate launch and had defaults used instead: --num_processes was set to a value of 1 --num_machines was set to a value of 1 --mixed_precision was set to a value of 'no' --dynamo_backend was set to a value of 'no' To avoid this warning pass in values for each of the problematic parameters or run accelerate config. Selected Tasks: ['multiple-swift'] Loading model in bf16 Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00, 3.09s/it] generation mode only /home/anil/.local/lib/python3.9/site-packages/datasets/load.py:1491: FutureWarning: The repository for nuprl/MultiPL-E contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/nuprl/MultiPL-E You can avoid this message in future by passing the argument trust_remote_code=True. Passing trust_remote_code=True will be mandatory to load this dataset from the next major release of datasets. warnings.warn( Downloading data: 238kB [00:00, 43.6MB/s]
Generating test split: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 158/158 [00:00<00:00, 10724.69 examples/s] number of problems for this task is 5 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:45<00:00, 4.54s/it] Task multiple-swift done Running task multiple-php The following values were not passed to accelerate launch and had defaults used instead: --num_processes was set to a value of 1 --num_machines was set to a value of 1 --mixed_precision was set to a value of 'no' --dynamo_backend was set to a value of 'no' To avoid this warning pass in values for each of the problematic parameters or run accelerate config. Selected Tasks: ['multiple-php'] Loading model in bf16 Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00, 3.08s/it] generation mode only /home/anil/.local/lib/python3.9/site-packages/datasets/load.py:1491: FutureWarning: The repository for nuprl/MultiPL-E contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/nuprl/MultiPL-E You can avoid this message in future by passing the argument trust_remote_code=True. Passing trust_remote_code=True will be mandatory to load this dataset from the next major release of datasets. warnings.warn( Downloading data: 264kB [00:00, 48.2MB/s]
Generating test split: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 161/161 [00:00<00:00, 9934.28 examples/s] number of problems for this task is 5 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:39<00:00, 3.92s/it] Task multiple-php done Running task multiple-d The following values were not passed to accelerate launch and had defaults used instead: --num_processes was set to a value of 1 --num_machines was set to a value of 1 --mixed_precision was set to a value of 'no' --dynamo_backend was set to a value of 'no' To avoid this warning pass in values for each of the problematic parameters or run accelerate config. Selected Tasks: ['multiple-d'] Loading model in bf16 Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00, 3.09s/it] generation mode only /home/anil/.local/lib/python3.9/site-packages/datasets/load.py:1491: FutureWarning: The repository for nuprl/MultiPL-E contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/nuprl/MultiPL-E You can avoid this message in future by passing the argument trust_remote_code=True. Passing trust_remote_code=True will be mandatory to load this dataset from the next major release of datasets. warnings.warn( Downloading data: 217kB [00:00, 42.1MB/s]
Generating test split: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 156/156 [00:00<00:00, 9929.76 examples/s] number of problems for this task is 5 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:58<00:00, 5.87s/it] Task multiple-d done Running task multiple-jl The following values were not passed to accelerate launch and had defaults used instead: --num_processes was set to a value of 1 --num_machines was set to a value of 1 --mixed_precision was set to a value of 'no' --dynamo_backend was set to a value of 'no' To avoid this warning pass in values for each of the problematic parameters or run accelerate config. Selected Tasks: ['multiple-jl'] Loading model in bf16 Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00, 3.09s/it] generation mode only /home/anil/.local/lib/python3.9/site-packages/datasets/load.py:1491: FutureWarning: The repository for nuprl/MultiPL-E contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/nuprl/MultiPL-E You can avoid this message in future by passing the argument trust_remote_code=True. Passing trust_remote_code=True will be mandatory to load this dataset from the next major release of datasets. warnings.warn( Downloading data: 205kB [00:00, 38.2MB/s]
Generating test split: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 159/159 [00:00<00:00, 10447.32 examples/s] number of problems for this task is 5 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:36<00:00, 3.62s/it] Task multiple-jl done Running task multiple-lua The following values were not passed to accelerate launch and had defaults used instead: --num_processes was set to a value of 1 --num_machines was set to a value of 1 --mixed_precision was set to a value of 'no' --dynamo_backend was set to a value of 'no' To avoid this warning pass in values for each of the problematic parameters or run accelerate config. Selected Tasks: ['multiple-lua'] Loading model in bf16 Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00, 3.07s/it] generation mode only /home/anil/.local/lib/python3.9/site-packages/datasets/load.py:1491: FutureWarning: The repository for nuprl/MultiPL-E contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/nuprl/MultiPL-E You can avoid this message in future by passing the argument trust_remote_code=True. Passing trust_remote_code=True will be mandatory to load this dataset from the next major release of datasets. warnings.warn( Downloading data: 218kB [00:00, 41.9MB/s]
Generating test split: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 161/161 [00:00<00:00, 10419.10 examples/s] number of problems for this task is 5 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [02:46<00:00, 16.67s/it] Task multiple-lua done Running task multiple-r The following values were not passed to accelerate launch and had defaults used instead: --num_processes was set to a value of 1 --num_machines was set to a value of 1 --mixed_precision was set to a value of 'no' --dynamo_backend was set to a value of 'no' To avoid this warning pass in values for each of the problematic parameters or run accelerate config. Selected Tasks: ['multiple-r'] Loading model in bf16 Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00, 3.09s/it] generation mode only /home/anil/.local/lib/python3.9/site-packages/datasets/load.py:1491: FutureWarning: The repository for nuprl/MultiPL-E contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/nuprl/MultiPL-E You can avoid this message in future by passing the argument trust_remote_code=True. Passing trust_remote_code=True will be mandatory to load this dataset from the next major release of datasets. warnings.warn( Downloading data: 219kB [00:00, 42.3MB/s]
Generating test split: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 161/161 [00:00<00:00, 10775.22 examples/s] number of problems for this task is 5 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:44<00:00, 4.50s/it] Task multiple-r done Running task multiple-rkt The following values were not passed to accelerate launch and had defaults used instead: --num_processes was set to a value of 1 --num_machines was set to a value of 1 --mixed_precision was set to a value of 'no' --dynamo_backend was set to a value of 'no' To avoid this warning pass in values for each of the problematic parameters or run accelerate config. Selected Tasks: ['multiple-rkt'] Loading model in bf16 Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00, 3.08s/it] generation mode only /home/anil/.local/lib/python3.9/site-packages/datasets/load.py:1491: FutureWarning: The repository for nuprl/MultiPL-E contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/nuprl/MultiPL-E You can avoid this message in future by passing the argument trust_remote_code=True. Passing trust_remote_code=True will be mandatory to load this dataset from the next major release of datasets. warnings.warn( Downloading data: 226kB [00:00, 42.6MB/s]
Generating test split: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 161/161 [00:00<00:00, 10054.09 examples/s] number of problems for this task is 5 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00, 9.91s/it] Task multiple-rkt done Running task multiple-rs The following values were not passed to accelerate launch and had defaults used instead: --num_processes was set to a value of 1 --num_machines was set to a value of 1 --mixed_precision was set to a value of 'no' --dynamo_backend was set to a value of 'no' To avoid this warning pass in values for each of the problematic parameters or run accelerate config. Selected Tasks: ['multiple-rs'] Loading model in bf16 Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00, 3.08s/it] generation mode only /home/anil/.local/lib/python3.9/site-packages/datasets/load.py:1491: FutureWarning: The repository for nuprl/MultiPL-E contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/nuprl/MultiPL-E You can avoid this message in future by passing the argument trust_remote_code=True. Passing trust_remote_code=True will be mandatory to load this dataset from the next major release of datasets. warnings.warn( Downloading data: 220kB [00:00, 50.6MB/s]
Generating test split: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 156/156 [00:00<00:00, 10848.78 examples/s] number of problems for this task is 5 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:46<00:00, 4.68s/it] Task multiple-rs done

Python environment installation Logs

(base) anil@ray-qa-worker-0-2ea7-head-1f94e943-compute:~/bigcode-evaluation-harness$ conda create --name bch Collecting package metadata (current_repodata.json): done Solving environment: done

==> WARNING: A newer version of conda exists. <== current version: 23.9.0 latest version: 24.5.0

Please update conda by running

$ conda update -n base -c conda-forge conda

Or to minimize the number of packages updated during conda update use

 conda install conda=24.5.0

Package Plan

environment location: /opt/conda/envs/bch

Proceed ([y]/n)? y

Preparing transaction: done Verifying transaction: done Executing transaction: done

To activate this environment, use

 $ conda activate bch

To deactivate an active environment, use

$ conda deactivate

(base) anil@ray-qa-worker-0-2ea7-head-1f94e943-compute:/bigcode-evaluation-harness$ conda deactivate anil@ray-qa-worker-0-2ea7-head-1f94e943-compute:/bigcode-evaluation-harness$ conda activate bch (bch) anil@ray-qa-worker-0-2ea7-head-1f94e943-compute:/bigcode-evaluation-harness$ pip install -e . Obtaining file:///home/anil/bigcode-evaluation-harness Collecting accelerate>=0.13.2 Downloading accelerate-0.31.0-py3-none-any.whl (309 kB) |████████████████████████████████| 309 kB 1.6 MB/s Collecting datasets>=2.6.1 Downloading datasets-2.19.2-py3-none-any.whl (542 kB) |████████████████████████████████| 542 kB 25.0 MB/s Collecting evaluate>=0.3.0 Downloading evaluate-0.4.2-py3-none-any.whl (84 kB) |████████████████████████████████| 84 kB 6.5 MB/s Collecting fsspec<2023.10.0 Downloading fsspec-2023.9.2-py3-none-any.whl (173 kB) |████████████████████████████████| 173 kB 71.6 MB/s Collecting huggingface_hub>=0.11.1 Downloading huggingface_hub-0.23.3-py3-none-any.whl (401 kB) |████████████████████████████████| 401 kB 72.3 MB/s Collecting mosestokenizer==1.0.0 Downloading mosestokenizer-1.0.0-py3-none-any.whl (51 kB) |████████████████████████████████| 51 kB 16.6 MB/s Collecting pyext==0.7 Downloading pyext-0.7.tar.gz (7.8 kB) Collecting transformers>=4.25.1 Downloading transformers-4.41.2-py3-none-any.whl (9.1 MB) |████████████████████████████████| 9.1 MB 69.6 MB/s Collecting openfile Downloading openfile-0.0.7-py3-none-any.whl (2.4 kB) Collecting toolwrapper Downloading toolwrapper-2.1.0.tar.gz (3.2 kB) Collecting docopt Downloading docopt-0.6.2.tar.gz (25 kB) Collecting torch>=1.10.0 Downloading torch-2.3.1-cp39-cp39-manylinux1_x86_64.whl (779.1 MB) |████████████████████████████████| 779.1 MB 708 bytes/s Collecting pyyaml Downloading PyYAML-6.0.1-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (738 kB) |████████████████████████████████| 738 kB 13.1 MB/s Collecting numpy>=1.17 Downloading numpy-1.26.4-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.2 MB) |████████████████████████████████| 18.2 MB 14.2 MB/s Collecting safetensors>=0.3.1 Downloading safetensors-0.4.3-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB) |████████████████████████████████| 1.2 MB 13.9 MB/s Collecting packaging>=20.0 Downloading packaging-24.0-py3-none-any.whl (53 kB) |████████████████████████████████| 53 kB 4.5 MB/s Collecting psutil Downloading psutil-5.9.8-cp36-abi3-manylinux_2_12_x86_64.manylinux2010_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (288 kB) |████████████████████████████████| 288 kB 14.5 MB/s Collecting pyarrow-hotfix Downloading pyarrow_hotfix-0.6-py3-none-any.whl (7.9 kB) Collecting requests>=2.32.1 Downloading requests-2.32.3-py3-none-any.whl (64 kB) |████████████████████████████████| 64 kB 5.5 MB/s Collecting xxhash Downloading xxhash-3.4.1-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (193 kB) |████████████████████████████████| 193 kB 16.6 MB/s Collecting fsspec[http]<=2024.3.1,>=2023.1.0 Downloading fsspec-2024.3.1-py3-none-any.whl (171 kB) |████████████████████████████████| 171 kB 14.2 MB/s Collecting filelock Downloading filelock-3.14.0-py3-none-any.whl (12 kB) Collecting dill<0.3.9,>=0.3.0 Downloading dill-0.3.8-py3-none-any.whl (116 kB) |████████████████████████████████| 116 kB 14.3 MB/s Collecting pandas Downloading pandas-2.2.2-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (13.1 MB) |████████████████████████████████| 13.1 MB 16.0 MB/s Collecting multiprocess Downloading multiprocess-0.70.16-py39-none-any.whl (133 kB) |████████████████████████████████| 133 kB 15.6 MB/s Collecting aiohttp Downloading aiohttp-3.9.5-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB) |████████████████████████████████| 1.2 MB 15.7 MB/s Collecting tqdm>=4.62.1 Downloading tqdm-4.66.4-py3-none-any.whl (78 kB) |████████████████████████████████| 78 kB 9.5 MB/s Collecting pyarrow>=12.0.0 Downloading pyarrow-16.1.0-cp39-cp39-manylinux_2_28_x86_64.whl (40.8 MB) |████████████████████████████████| 40.8 MB 124 kB/s Collecting fsspec[http]<=2024.3.1,>=2023.1.0 Downloading fsspec-2024.3.0-py3-none-any.whl (171 kB) |████████████████████████████████| 171 kB 16.8 MB/s Downloading fsspec-2024.2.0-py3-none-any.whl (170 kB) |████████████████████████████████| 170 kB 21.0 MB/s Downloading fsspec-2023.12.2-py3-none-any.whl (168 kB) |████████████████████████████████| 168 kB 21.4 MB/s Downloading fsspec-2023.12.1-py3-none-any.whl (168 kB) |████████████████████████████████| 168 kB 20.3 MB/s Downloading fsspec-2023.12.0-py3-none-any.whl (168 kB) |████████████████████████████████| 168 kB 17.2 MB/s Downloading fsspec-2023.10.0-py3-none-any.whl (166 kB) |████████████████████████████████| 166 kB 20.9 MB/s Collecting yarl<2.0,>=1.0 Downloading yarl-1.9.4-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (304 kB) |████████████████████████████████| 304 kB 15.5 MB/s Collecting async-timeout<5.0,>=4.0 Downloading async_timeout-4.0.3-py3-none-any.whl (5.7 kB) Collecting frozenlist>=1.1.1 Downloading frozenlist-1.4.1-cp39-cp39-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (240 kB) |████████████████████████████████| 240 kB 20.5 MB/s Collecting multidict<7.0,>=4.5 Downloading multidict-6.0.5-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (123 kB) |████████████████████████████████| 123 kB 20.3 MB/s Collecting attrs>=17.3.0 Downloading attrs-23.2.0-py3-none-any.whl (60 kB) |████████████████████████████████| 60 kB 12.0 MB/s Collecting aiosignal>=1.1.2 Downloading aiosignal-1.3.1-py3-none-any.whl (7.6 kB) Collecting typing-extensions>=3.7.4.3 Downloading typing_extensions-4.12.2-py3-none-any.whl (37 kB) Requirement already satisfied: urllib3<3,>=1.21.1 in /usr/lib/python3/dist-packages (from requests>=2.32.1->datasets>=2.6.1->bigcode-eval==0.0.0) (1.26.5) Collecting charset-normalizer<4,>=2 Downloading charset_normalizer-3.3.2-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (142 kB) |████████████████████████████████| 142 kB 20.0 MB/s Requirement already satisfied: idna<4,>=2.5 in /usr/lib/python3/dist-packages (from requests>=2.32.1->datasets>=2.6.1->bigcode-eval==0.0.0) (2.10) Requirement already satisfied: certifi>=2017.4.17 in /usr/lib/python3/dist-packages (from requests>=2.32.1->datasets>=2.6.1->bigcode-eval==0.0.0) (2020.6.20) Collecting nvidia-cuda-cupti-cu12==12.1.105 Downloading nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (14.1 MB) |████████████████████████████████| 14.1 MB 2.0 MB/s Collecting nvidia-cuda-nvrtc-cu12==12.1.105 Downloading nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB) |████████████████████████████████| 23.7 MB 21.4 MB/s Collecting nvidia-cusparse-cu12==12.1.0.106 Downloading nvidia_cusparse_cu12-12.1.0.106-py3-none-manylinux1_x86_64.whl (196.0 MB) |████████████████████████████████| 196.0 MB 50 kB/s Collecting sympy Downloading sympy-1.12.1-py3-none-any.whl (5.7 MB) |████████████████████████████████| 5.7 MB 110.3 MB/s Collecting networkx Downloading networkx-3.2.1-py3-none-any.whl (1.6 MB) |████████████████████████████████| 1.6 MB 104.0 MB/s Collecting nvidia-nvtx-cu12==12.1.105 Downloading nvidia_nvtx_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (99 kB) |████████████████████████████████| 99 kB 21.4 MB/s Collecting nvidia-cuda-runtime-cu12==12.1.105 Downloading nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (823 kB) |████████████████████████████████| 823 kB 113.9 MB/s Collecting triton==2.3.1 Downloading triton-2.3.1-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (168.1 MB) |████████████████████████████████| 168.1 MB 25 kB/s Collecting nvidia-cudnn-cu12==8.9.2.26 Downloading nvidia_cudnn_cu12-8.9.2.26-py3-none-manylinux1_x86_64.whl (731.7 MB) |████████████████████████████████| 731.7 MB 14 kB/s Collecting nvidia-curand-cu12==10.3.2.106 Downloading nvidia_curand_cu12-10.3.2.106-py3-none-manylinux1_x86_64.whl (56.5 MB) |████████████████████████████████| 56.5 MB 732 kB/s Collecting nvidia-cusolver-cu12==11.4.5.107 Downloading nvidia_cusolver_cu12-11.4.5.107-py3-none-manylinux1_x86_64.whl (124.2 MB) |████████████████████████████████| 124.2 MB 28 kB/s Collecting nvidia-nccl-cu12==2.20.5 Downloading nvidia_nccl_cu12-2.20.5-py3-none-manylinux2014_x86_64.whl (176.2 MB) |████████████████████████████████| 176.2 MB 88 kB/s Collecting nvidia-cublas-cu12==12.1.3.1 Downloading nvidia_cublas_cu12-12.1.3.1-py3-none-manylinux1_x86_64.whl (410.6 MB) |████████████████████████████████| 410.6 MB 6.2 kB/s Collecting nvidia-cufft-cu12==11.0.2.54 Downloading nvidia_cufft_cu12-11.0.2.54-py3-none-manylinux1_x86_64.whl (121.6 MB) |████████████████████████████████| 121.6 MB 68 kB/s Collecting jinja2 Downloading jinja2-3.1.4-py3-none-any.whl (133 kB) |████████████████████████████████| 133 kB 101.6 MB/s Collecting nvidia-nvjitlink-cu12 Downloading nvidia_nvjitlink_cu12-12.5.40-py3-none-manylinux2014_x86_64.whl (21.3 MB) |████████████████████████████████| 21.3 MB 743 kB/s Collecting tokenizers<0.20,>=0.19 Downloading tokenizers-0.19.1-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.6 MB) |████████████████████████████████| 3.6 MB 96.3 MB/s Collecting regex!=2019.12.17 Downloading regex-2024.5.15-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (774 kB) |████████████████████████████████| 774 kB 106.1 MB/s Collecting MarkupSafe>=2.0 Downloading MarkupSafe-2.1.5-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (25 kB) Collecting python-dateutil>=2.8.2 Downloading python_dateutil-2.9.0.post0-py2.py3-none-any.whl (229 kB) |████████████████████████████████| 229 kB 109.1 MB/s Collecting tzdata>=2022.7 Downloading tzdata-2024.1-py2.py3-none-any.whl (345 kB) |████████████████████████████████| 345 kB 108.4 MB/s Collecting pytz>=2020.1 Downloading pytz-2024.1-py2.py3-none-any.whl (505 kB) |████████████████████████████████| 505 kB 107.4 MB/s Requirement already satisfied: six>=1.5 in /usr/lib/python3/dist-packages (from python-dateutil>=2.8.2->pandas->datasets>=2.6.1->bigcode-eval==0.0.0) (1.16.0) Collecting mpmath<1.4.0,>=1.1.0 Downloading mpmath-1.3.0-py3-none-any.whl (536 kB) |████████████████████████████████| 536 kB 105.9 MB/s Building wheels for collected packages: pyext, docopt, toolwrapper Building wheel for pyext (setup.py) ... done Created wheel for pyext: filename=pyext-0.7-py3-none-any.whl size=7247 sha256=acfea8e69a5040a73ccdbd749f9513e481899fb50b36210af520ee50cd3a4081 Stored in directory: /home/anil/.cache/pip/wheels/c7/3e/08/61c11cddb757c67971533155a8f3dedb32d534695b45f943b5 Building wheel for docopt (setup.py) ... done Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl size=13704 sha256=dbbf96d1a218896d3feb876f9a8520c5e98602f3ae86f18c0ba9a08fd873ea8c Stored in directory: /home/anil/.cache/pip/wheels/70/4a/46/1309fc853b8d395e60bafaf1b6df7845bdd82c95fd59dd8d2b Building wheel for toolwrapper (setup.py) ... done Created wheel for toolwrapper: filename=toolwrapper-2.1.0-py3-none-any.whl size=3353 sha256=dbef7dc219be66376c0ce09439de76ae545040864f5e0ec85163efd4572f4b1d Stored in directory: /home/anil/.cache/pip/wheels/7f/fb/ad/2b280cddd52c15c21ac9599c2661fe8aec93778fb35da77c7f Successfully built pyext docopt toolwrapper Installing collected packages: multidict, frozenlist, yarl, nvidia-nvjitlink-cu12, charset-normalizer, attrs, async-timeout, aiosignal, tzdata, typing-extensions, tqdm, requests, pyyaml, pytz, python-dateutil, packaging, nvidia-cusparse-cu12, nvidia-cublas-cu12, numpy, mpmath, MarkupSafe, fsspec, filelock, dill, aiohttp, xxhash, triton, sympy, pyarrow-hotfix, pyarrow, pandas, nvidia-nvtx-cu12, nvidia-nccl-cu12, nvidia-cusolver-cu12, nvidia-curand-cu12, nvidia-cufft-cu12, nvidia-cudnn-cu12, nvidia-cuda-runtime-cu12, nvidia-cuda-nvrtc-cu12, nvidia-cuda-cupti-cu12, networkx, multiprocess, jinja2, huggingface-hub, torch, toolwrapper, tokenizers, safetensors, regex, psutil, openfile, docopt, datasets, transformers, pyext, mosestokenizer, evaluate, accelerate, bigcode-eval WARNING: The script normalizer is installed in '/home/anil/.local/bin' which is not on PATH. Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location. WARNING: The script tqdm is installed in '/home/anil/.local/bin' which is not on PATH. Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location. WARNING: The script f2py is installed in '/home/anil/.local/bin' which is not on PATH. Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location. WARNING: The script isympy is installed in '/home/anil/.local/bin' which is not on PATH. Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location. WARNING: The script huggingface-cli is installed in '/home/anil/.local/bin' which is not on PATH. Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location. WARNING: The scripts convert-caffe2-to-onnx, convert-onnx-to-caffe2 and torchrun are installed in '/home/anil/.local/bin' which is not on PATH. Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location. WARNING: The script datasets-cli is installed in '/home/anil/.local/bin' which is not on PATH. Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location. WARNING: The script transformers-cli is installed in '/home/anil/.local/bin' which is not on PATH. Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location. WARNING: The scripts moses-detokenizer, moses-punct-normalizer, moses-sent-splitter and moses-tokenizer are installed in '/home/anil/.local/bin' which is not on PATH. Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location. WARNING: The script evaluate-cli is installed in '/home/anil/.local/bin' which is not on PATH. Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location. WARNING: The scripts accelerate, accelerate-config, accelerate-estimate-memory, accelerate-launch and accelerate-merge-weights are installed in '/home/anil/.local/bin' which is not on PATH. Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location. Running setup.py develop for bigcode-eval Successfully installed MarkupSafe-2.1.5 accelerate-0.31.0 aiohttp-3.9.5 aiosignal-1.3.1 async-timeout-4.0.3 attrs-23.2.0 bigcode-eval charset-normalizer-3.3.2 datasets-2.19.2 dill-0.3.8 docopt-0.6.2 evaluate-0.4.2 filelock-3.14.0 frozenlist-1.4.1 fsspec-2023.9.2 huggingface-hub-0.23.3 jinja2-3.1.4 mosestokenizer-1.0.0 mpmath-1.3.0 multidict-6.0.5 multiprocess-0.70.16 networkx-3.2.1 numpy-1.26.4 nvidia-cublas-cu12-12.1.3.1 nvidia-cuda-cupti-cu12-12.1.105 nvidia-cuda-nvrtc-cu12-12.1.105 nvidia-cuda-runtime-cu12-12.1.105 nvidia-cudnn-cu12-8.9.2.26 nvidia-cufft-cu12-11.0.2.54 nvidia-curand-cu12-10.3.2.106 nvidia-cusolver-cu12-11.4.5.107 nvidia-cusparse-cu12-12.1.0.106 nvidia-nccl-cu12-2.20.5 nvidia-nvjitlink-cu12-12.5.40 nvidia-nvtx-cu12-12.1.105 openfile-0.0.7 packaging-24.0 pandas-2.2.2 psutil-5.9.8 pyarrow-16.1.0 pyarrow-hotfix-0.6 pyext-0.7 python-dateutil-2.9.0.post0 pytz-2024.1 pyyaml-6.0.1 regex-2024.5.15 requests-2.32.3 safetensors-0.4.3 sympy-1.12.1 tokenizers-0.19.1 toolwrapper-2.1.0 torch-2.3.1 tqdm-4.66.4 transformers-4.41.2 triton-2.3.1 typing-extensions-4.12.2 tzdata-2024.1 xxhash-3.4.1 yarl-1.9.4 (bch) anil@ray-qa-worker-0-2ea7-head-1f94e943-compute:/bigcode-evaluation-harness$ export PATH=$PATH:/home/anil/.local/bin (bch) anil@ray-qa-worker-0-2ea7-head-1f94e943-compute:/bigcode-evaluation-harness$ echo $PATH /opt/conda/envs/bch/bin:/usr/local/cuda/bin:/opt/conda/condabin:/usr/local/bin:/usr/bin:/bin:/usr/local/games:/usr/games:/home/anil/.local/bin

OS

Linux ray-qa-worker-0-2ea7-head-1f94e943-compute 5.10.0-26-cloud-amd64 #1 SMP Debian 5.10.197-1 (2023-09-29) x86_64 GNU/Linux

(bch) anil@ray-qa-worker-0-2ea7-head-1f94e943-compute:~/generations$ lsb_release -a No LSB modules are available. Distributor ID: Debian Description: Debian GNU/Linux 11 (bullseye) Release: 11 Codename: bullseye

Hardware

(bch) anil@ray-qa-worker-0-2ea7-head-1f94e943-compute:lspci 00:00.0 Host bridge: Intel Corporation 440FX - 82441FX PMC [Natoma] (rev 02) 00:01.0 ISA bridge: Intel Corporation 82371AB/EB/MB PIIX4 ISA (rev 03) 00:01.3 Bridge: Intel Corporation 82371AB/EB/MB PIIX4 ACPI (rev 03) 00:03.0 Non-VGA unclassified device: Red Hat, Inc. Virtio SCSI 00:04.0 3D controller: NVIDIA Corporation GA100 [A100 SXM4 40GB] (rev a1) 00:05.0 Ethernet controller: Red Hat, Inc. Virtio network device 00:06.0 Unclassified device [00ff]: Red Hat, Inc. Virtio RNG (bch) anil@ray-qa-worker-0-2ea7-head-1f94e943-compute:~/generations$

loubnabnl commented 3 weeks ago

Hi can you add --save_generations \ here https://github.com/bigcode-project/bigcode-evaluation-harness/blob/main/leaderboard/README.md#2--generation

    accelerate launch main.py \
            --model $org/$model \
            --task $task \
            --n_samples 50 \
            --batch_size 50 \
            --max_length_generation 512 \
            --temperature 0.2 \
            --precision bf16 \
            --trust_remote_code \
            --use_auth_token \
            --generation_only \
            --save_generations \
            --save_generations_path $generations_path
anil-gurbuz commented 2 weeks ago

Thanks @loubnabnl -- this solved my problem. I will open a PR with the updated command you shared, link this issue. If you think it is unnecessary please close the issue directly.

Thanks!

loubnabnl commented 1 week ago

thanks!