数据集概述
本数据集是论文《Stories Complicate Things: A Qualitative Analysis of Coding Problems (Un)solved by GitHub Copilot》的配套数据包,包含未处理的原始数据、编码问题与解决方案的完整代码列表,以及生成的图像文件,用于支持对GitHub Copilot解决或未解决编码问题的定性分析研究。
文件详解
- 文档说明类
- 文件名称:readme.md
- 文件格式:MD
- 字段映射介绍:数据集说明文档,包含文件清单及各文件的简短描述
- 原始数据类
- 文件名称:raw_data.json
- 文件格式:JSON
- 字段映射介绍:未处理的原始数据,记录GitHub Copilot编码问题相关的基础信息
- 编码问题统计类
- 文件名称:codes_coding_problems.csv
- 文件格式:CSV
- 字段映射介绍:包含code(编码问题类型)、solved(解决数量)、unsolved(未解决数量)、category(问题类别)、percent_solved(解决率)等字段
- 解决方案统计类
- 文件名称:codes_solutions.csv
- 文件格式:CSV
- 字段映射介绍:包含code(解决方案类型)、solved(解决数量)、unsolved(未解决数量)、percent_solved(解决率)等字段
- 难度分布统计类
- 文件名称:difficulty_distribution_per_code.csv
- 文件格式:CSV
- 字段映射介绍:记录各编码问题类型的难度分布数据
- 编码类别定义类
- 文件名称:code_category_assignment_and_merging.json
- 文件格式:JSON
- 字段映射介绍:包含categories(类别定义)、equivalences(等价关系)、ignore(忽略项)三个核心键值对,定义编码问题的分类规则
- 图像文件类
- 文件名称:images.zip
- 文件格式:ZIP
- 字段映射介绍:生成的图像压缩包,包含与编码问题分析相关的可视化图像
数据来源
论文《Stories Complicate Things: A Qualitative Analysis of Coding Problems (Un)solved by GitHub Copilot》
适用场景
- GitHub Copilot性能分析:通过编码问题解决率数据,评估GitHub Copilot在不同类型编码任务中的表现
- 编码问题特征研究:分析编码问题类别、长度等特征与解决率的关联关系
- 定性研究支持:为编码问题解决过程的定性分析提供原始数据与统计基础
- 解决方案有效性评估:通过解决方案类型的统计数据,研究不同方案对编码问题解决的影响
- 可视化研究:利用生成的图像文件,直观展示编码问题的难度分布与分类特征