GitHub_Copilot_Stories_Complicate_Things_编码问题定性分析数据包

数据集概述

本数据集是论文《Stories Complicate Things: A Qualitative Analysis of Coding Problems (Un)solved by GitHub Copilot》的配套数据包,包含未处理的原始数据、编码问题与解决方案的完整代码列表,以及生成的图像文件,用于支持对GitHub Copilot解决或未解决编码问题的定性分析研究。

文件详解

  • 文档说明类
  • 文件名称:readme.md
  • 文件格式:MD
  • 字段映射介绍:数据集说明文档,包含文件清单及各文件的简短描述
  • 原始数据类
  • 文件名称:raw_data.json
  • 文件格式:JSON
  • 字段映射介绍:未处理的原始数据,记录GitHub Copilot编码问题相关的基础信息
  • 编码问题统计类
  • 文件名称:codes_coding_problems.csv
  • 文件格式:CSV
  • 字段映射介绍:包含code(编码问题类型)、solved(解决数量)、unsolved(未解决数量)、category(问题类别)、percent_solved(解决率)等字段
  • 解决方案统计类
  • 文件名称:codes_solutions.csv
  • 文件格式:CSV
  • 字段映射介绍:包含code(解决方案类型)、solved(解决数量)、unsolved(未解决数量)、percent_solved(解决率)等字段
  • 难度分布统计类
  • 文件名称:difficulty_distribution_per_code.csv
  • 文件格式:CSV
  • 字段映射介绍:记录各编码问题类型的难度分布数据
  • 编码类别定义类
  • 文件名称:code_category_assignment_and_merging.json
  • 文件格式:JSON
  • 字段映射介绍:包含categories(类别定义)、equivalences(等价关系)、ignore(忽略项)三个核心键值对,定义编码问题的分类规则
  • 图像文件类
  • 文件名称:images.zip
  • 文件格式:ZIP
  • 字段映射介绍:生成的图像压缩包,包含与编码问题分析相关的可视化图像

数据来源

论文《Stories Complicate Things: A Qualitative Analysis of Coding Problems (Un)solved by GitHub Copilot》

适用场景

  • GitHub Copilot性能分析:通过编码问题解决率数据,评估GitHub Copilot在不同类型编码任务中的表现
  • 编码问题特征研究:分析编码问题类别、长度等特征与解决率的关联关系
  • 定性研究支持:为编码问题解决过程的定性分析提供原始数据与统计基础
  • 解决方案有效性评估:通过解决方案类型的统计数据,研究不同方案对编码问题解决的影响
  • 可视化研究:利用生成的图像文件,直观展示编码问题的难度分布与分类特征
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.29 MiB
最后更新 2026年1月9日
创建于 2026年1月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。