【论文分享-1212】Evaluating Large Language Models Trained on Code

Title

Evaluating Large Language Models Trained on Code

Link

https://arxiv.org/pdf/2107.03374.pdf

Year

2021

Conference or Journal

Preprint

Rank

No response

Keywords

GPT Code generation

Abstract

本文介绍了 Codex，这是一个在 GitHub 的公开可用代码上微调的 GPT 语言模型，并研究了它的 Python 代码编写能力。Codex 的另一种生产版本支持了 GitHub Copilot 。在 HumanEval 上，本文发布了一个新的评估集来衡量代码生成功能正确性，我们的模型解决了数据集 28.8% 的问题，而 GPT-3 解决了 0%，GPT-J 解决了 11.4%。此外，我们发现从模型中重复采样是产生解决方案的有效策略。使用这种方法，我们解决了每个问题有 100 个样本的问题的 70.2%。仔细调查我们的模型揭示了其局限性，包括文档描述的长链操作以及对变量的绑定操作。最后，我们讨论了部署强大的代码生成技术的潜在更广泛的影响。

OpenEduTech / EduTechResearch

【论文分享-1212】Evaluating Large Language Models Trained on Code #50