OpenAIHumanEval代码生成评估数据集

OpenAIHumanEval代码生成评估数据集

数据来源:互联网公开数据

标签:代码生成,自然语言处理,编程,Python,模型评估,机器学习,Hugging Face,OpenAI,编程问题,单元测试

数据概述: 本数据集,由OpenAI发布,是一个精心设计的Python编程问题集合,用于精确评估代码生成模型。该数据集包含164个由OpenAI工程师和研究人员编写的编程问题,旨在测试代码生成模型的正确性和可扩展性。每个问题都包含函数签名、函数体以及单元测试,并附带自然语言描述的文档字符串和注释,这使得模型更具挑战性。数据集采用MIT许可证,适合用于评估机器学习模型生成的代码。

数据用途概述: 该数据集主要用于以下几个方面: 1. 训练代码生成模型:在有限的监督环境下,利用数据集中的编程问题进行模型训练。 2. 评估代码生成模型性能:HumanEval提供了每个问题的标准答案和单元测试,可以用来评估现有代码生成模型的准确性。 3. 自然语言处理研究:利用HumanEval中的文档字符串和注释,研究自然语言处理算法在编程环境下的应用,提升模型对自然语言的理解能力。 4. 代码生成算法测试:为开发和测试新的代码生成算法提供标准化的测试环境。

数据集包含的列: * prompt:编程问题的描述,使用自然语言编写。 * canonical_solution:编程问题的标准解决方案,由OpenAI研究人员提供。 * test:用于验证解决方案准确性的单元测试。 * entry_point:运行单元测试的入口点。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 14, 2025, 09:12 (UTC)
创建于 四月 14, 2025, 09:12 (UTC)