数据集

OpenAIHumanEval代码生成评估数据集

数据来源：互联网公开数据

标签：代码生成,自然语言处理,编程,Python,模型评估,机器学习,Hugging Face,OpenAI,编程问题,单元测试

数据概述：本数据集，由OpenAI发布，是一个精心设计的Python编程问题集合，用于精确评估代码生成模型。该数据集包含164个由OpenAI工程师和研究人员编写的编程问题，旨在测试代码生成模型的正确性和可扩展性。每个问题都包含函数签名、函数体以及单元测试，并附带自然语言描述的文档字符串和注释，这使得模型更具挑战性。数据集采用MIT许可证，适合用于评估机器学习模型生成的代码。

数据用途概述：该数据集主要用于以下几个方面： 1. 训练代码生成模型：在有限的监督环境下，利用数据集中的编程问题进行模型训练。 2. 评估代码生成模型性能：HumanEval提供了每个问题的标准答案和单元测试，可以用来评估现有代码生成模型的准确性。 3. 自然语言处理研究：利用HumanEval中的文档字符串和注释，研究自然语言处理算法在编程环境下的应用，提升模型对自然语言的理解能力。 4. 代码生成算法测试：为开发和测试新的代码生成算法提供标准化的测试环境。

数据集包含的列： * prompt：编程问题的描述，使用自然语言编写。 * canonical_solution：编程问题的标准解决方案，由OpenAI研究人员提供。 * test：用于验证解决方案准确性的单元测试。 * entry_point：运行单元测试的入口点。

数据与资源

OpenAIHumanEval代码生成评估数据集.zipZIP
0.04 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.04 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

OpenAIHumanEval代码生成评估数据集

数据与资源

附加信息

注册成功！