We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Evaluating Large Language Models Trained on Code
https://arxiv.org/pdf/2107.03374.pdf
2021
Preprint
No response
GPT Code generation
本文介绍了 Codex,这是一个在 GitHub 的公开可用代码上微调的 GPT 语言模型,并研究了它的 Python 代码编写能力。Codex 的另一种生产版本支持了 GitHub Copilot 。在 HumanEval 上,本文发布了一个新的评估集来衡量代码生成功能正确性,我们的模型解决了数据集 28.8% 的问题,而 GPT-3 解决了 0%,GPT-J 解决了 11.4%。此外,我们发现从模型中重复采样是产生解决方案的有效策略。使用这种方法,我们解决了每个问题有 100 个样本的问题的 70.2%。仔细调查我们的模型揭示了其局限性,包括文档描述的长链操作以及对变量的绑定操作。最后,我们讨论了部署强大的代码生成技术的潜在更广泛的影响。
The text was updated successfully, but these errors were encountered:
No branches or pull requests
Title
Evaluating Large Language Models Trained on Code
Link
https://arxiv.org/pdf/2107.03374.pdf
Year
2021
Conference or Journal
Preprint
Rank
No response
Keywords
GPT Code generation
Abstract
本文介绍了 Codex,这是一个在 GitHub 的公开可用代码上微调的 GPT 语言模型,并研究了它的 Python 代码编写能力。Codex 的另一种生产版本支持了 GitHub Copilot 。在 HumanEval 上,本文发布了一个新的评估集来衡量代码生成功能正确性,我们的模型解决了数据集 28.8% 的问题,而 GPT-3 解决了 0%,GPT-J 解决了 11.4%。此外,我们发现从模型中重复采样是产生解决方案的有效策略。使用这种方法,我们解决了每个问题有 100 个样本的问题的 70.2%。仔细调查我们的模型揭示了其局限性,包括文档描述的长链操作以及对变量的绑定操作。最后,我们讨论了部署强大的代码生成技术的潜在更广泛的影响。
The text was updated successfully, but these errors were encountered: