编程谜题源代码_Python实现_程序语义推理_自然语言标注数据_2023年10月22日

数据集概述

本数据集包含用于程序语义推理的Python语句自然语言标注,由共享文件名前缀的文件对组成。数据源自Programming Puzzles项目,以压缩包形式提供,包含标注文件和参考源代码文件两类,可支持程序语义理解相关的研究与应用。

文件详解

  • 压缩包文件
  • 文件名称:archive_22102023.zip
  • 文件格式:ZIP
  • 内容说明:包含两类核心文件对,文件对共享相同的文件名前缀
  • 标注文件
  • 文件命名模式:以'_annot'结尾
  • 文件格式:JSONL(JSON Lines),即每行一个JSON对象
  • 内容说明:存储Python语句的自然语言标注信息
  • 参考源代码文件
  • 文件命名模式:以'_code'结尾
  • 文件格式:JSON
  • 内容说明:存储对应的Python源代码参考内容

数据来源

Programming Puzzles(Schuster et al. 2021, NeurIPS Dataset and benchmarks track)

适用场景

  • 程序语义理解研究:用于分析自然语言标注与Python语句语义的对应关系
  • 代码注释生成模型训练:以标注数据为基础,训练自动生成代码注释的AI模型
  • 程序分析工具开发:为程序理解、错误检测等工具提供语义标注支持
  • 编程教育资源建设:辅助开发编程学习中的语义解释类教学材料
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.04 MiB
最后更新 2026年1月13日
创建于 2026年1月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。