openai / human-eval

Code for the paper "Evaluating Large Language Models Trained on Code"
MIT License
2.31k stars 330 forks source link

Why pass@k =1.0? use the "evaluate_functional_correctness data/example_samples.jsonl --problem_file=data/example_problem.jsonl" #16

Open Smithol opened 1 year ago

Smithol commented 1 year ago

$ evaluate_functional_correctness data/example_samples.jsonl --problem_file=data/example_problem.jsonl Reading samples... 6it [00:00, 7047.28it/s] Running test suites... 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 98.99it/s] Writing results to data/example_samples.jsonl_results.jsonl... 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 21826.39it/s] {'pass@1': 1.0}

SeungyounShin commented 1 year ago

It looks like you omitted exec line @Smithol

laoniandisko commented 10 months ago

Do you know what is wrong with it?

tusiqi1 commented 7 months ago

$ evaluate_functional_correctness data/example_samples.jsonl --problem_file=data/example_problem.jsonl Reading samples... 6it [00:00, 7047.28it/s] Running test suites... 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 98.99it/s] Writing results to data/example_samples.jsonl_results.jsonl... 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 21826.39it/s] {'pass@1': 1.0}

After uncomment execution.py --->line 58--->exec() function I get 0.5.