数据集概述
本数据集包含用于程序语义推理的Python语句自然语言标注,由共享文件名前缀的文件对组成。数据源自Programming Puzzles项目,以压缩包形式提供,包含标注文件和参考源代码文件两类,可支持程序语义理解相关的研究与应用。
文件详解
- 压缩包文件
- 文件名称:archive_22102023.zip
- 文件格式:ZIP
- 内容说明:包含两类核心文件对,文件对共享相同的文件名前缀
- 标注文件
- 文件命名模式:以'_annot'结尾
- 文件格式:JSONL(JSON Lines),即每行一个JSON对象
- 内容说明:存储Python语句的自然语言标注信息
- 参考源代码文件
- 文件命名模式:以'_code'结尾
- 文件格式:JSON
- 内容说明:存储对应的Python源代码参考内容
数据来源
Programming Puzzles(Schuster et al. 2021, NeurIPS Dataset and benchmarks track)
适用场景
- 程序语义理解研究:用于分析自然语言标注与Python语句语义的对应关系
- 代码注释生成模型训练:以标注数据为基础,训练自动生成代码注释的AI模型
- 程序分析工具开发:为程序理解、错误检测等工具提供语义标注支持
- 编程教育资源建设:辅助开发编程学习中的语义解释类教学材料