用于代码生成模型的手工制作数据集

用于代码生成模型的手工制作数据集 数据来源:互联网公开数据 标签:代码生成,编程挑战,单元测试,自然语言处理,机器学习,OpenAI,HumanEval

数据概述: 本数据集是由OpenAI手工制作的一组164个编程问题,旨在挑战代码生成模型。每个问题包含函数签名、文档字符串、代码主体以及多个单元测试,所有内容均为手工编写,确保不包含在代码生成模型的训练集中。数据集中的每个问题是通过提示(prompt)来提供的,非常适合用于测试自然语言处理和机器学习模型从零开始生成Python程序的能力。

数据用途概述: 该数据集适用于开发从自然语言生成程序的模型、开发能够完成或调试程序的模型以及开发能够为程序编写单元测试的模型。对于研究人员和开发者而言,此数据集提供了一个理想的平台,用于评估和改进代码生成模型的性能。

举例: 在使用此数据集时,用户只需下载压缩文件并解压。解压后得到的目录将包含以下文件: - canonical_solution.py: 问题的正确Python代码解决方案。 - entry_point.py: 问题的入口点。 - prompt.txt: 问题的自然语言描述。 - test.py: 问题的单元测试。

此外,数据集还提供了test.csv文件,其中包含以下列: - prompt: 编程问题的自然语言描述。 - canonical_solution: 问题的正确Python代码解决方案。 - test: 生成的代码必须通过的单元测试集。 - entry_point: 生成代码的起始点。

许可信息: - 许可证:CC0 1.0 Universal (CC0 1.0) - 公共领域奉献 - 无版权 - 您可以复制、修改、分发和表演该作品,甚至用于商业用途,而无需获得许可。请参阅其他信息。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.04 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。