OpenEduTech / EduTechResearch

云原生、计算教育、软件过程与软件流程研究
Apache License 2.0
18 stars 8 forks source link

【论文分享-1212】Evaluating Large Language Models Trained on Code #50

Open LPY22 opened 8 months ago

LPY22 commented 8 months ago

Title

Evaluating Large Language Models Trained on Code

Link

https://arxiv.org/pdf/2107.03374.pdf

Year

2021

Conference or Journal

Preprint

Rank

No response

Keywords

GPT Code generation

Abstract

本文介绍了 Codex,这是一个在 GitHub 的公开可用代码上微调的 GPT 语言模型,并研究了它的 Python 代码编写能力。Codex 的另一种生产版本支持了 GitHub Copilot 。在 HumanEval 上,本文发布了一个新的评估集来衡量代码生成功能正确性,我们的模型解决了数据集 28.8% 的问题,而 GPT-3 解决了 0%,GPT-J 解决了 11.4%。此外,我们发现从模型中重复采样是产生解决方案的有效策略。使用这种方法,我们解决了每个问题有 100 个样本的问题的 70.2%。仔细调查我们的模型揭示了其局限性,包括文档描述的长链操作以及对变量的绑定操作。最后,我们讨论了部署强大的代码生成技术的潜在更广泛的影响。