GitHub拉取请求数据丢失调查论文数据集

数据集概述

本数据集为论文《An Investigation into the Loss of Pull Request Data on GitHub》的配套数据,包含用于分析GitHub拉取请求(PR)数据丢失情况的程序文件、结果统计CSV文件及说明文档,支撑论文中8个研究问题(RQ1-RQ8)的分析与验证。

文件详解

  • 数据文件(CSV格式,共13个):
  • RQ1.csv、RQ3.csv、RQ4.csv、RQ6a.csv、RQ7a.csv、RQ8.csv等:对应论文研究问题的统计结果数据,字段包含仓库名称、操作类型、时间节点、数据丢失分类等信息(如RQ4.csv含Repository、Action、Creation等字段;RQ6a.csv含Repository、Mentioned w/o Loss等字段)
  • repository.csv:仓库相关基础数据
  • 文档文件:
  • README.txt:程序说明文档,介绍数据读取、分析功能及命令操作方式
  • 程序与压缩文件:
  • DataLossAnalyzer.jar:可执行程序文件,用于分析PR数据丢失情况
  • DataLossAnalyzer.zip:程序压缩包

适用场景

  • 软件工程研究:分析GitHub平台PR数据丢失的特征与分布规律
  • 开源社区数据完整性研究:探究开源协作中数据丢失的影响因素
  • 实证软件分析:验证论文提出的PR数据丢失分类模型与统计结论
  • 数据质量评估:为开源平台数据可靠性评估提供实证数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 87.38 MiB
最后更新 2025年12月23日
创建于 2025年12月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。