开源GitHub项目代码审查回归分析数据集

数据集概述

该数据集包含用于研究“现代代码审查与开源项目安全性”的GitHub仓库数据,涵盖三千一百二十六个项目、一百四十三种语言,包含四十八万九千零三十八个问题和三十八万二千七百七十一个拉取请求,以及用于复现结果的回归分析代码文件。

文件详解

  • 数据文件:
  • population.csv:CSV格式,包含仓库所有者、名称、推送次数、问题数量、提交者数量等字段
  • lang-info.csv:CSV格式,包含编程语言名称、内存安全性、是否为编程语言、是否为Web语言等字段
  • repos_data_rfcc.csv:CSV格式,可能为RFCC方法的仓库数据
  • repos_data_nn.csv:CSV格式,可能为神经网络方法的仓库数据
  • 代码文件:
  • Regression.r:R语言代码文件,用于回归分析
  • Regression-RFCC.r:R语言代码文件,用于RFCC方法的回归分析
  • Regression.ipynb:Jupyter Notebook文件,用于回归分析
  • Regression-RFCC.ipynb:Jupyter Notebook文件,用于RFCC方法的回归分析
  • 文档与结果文件:
  • README.md:Markdown格式,数据集说明文档
  • Regression.html:HTML格式,回归分析结果报告
  • Regression-RFCC.html:HTML格式,RFCC方法回归分析结果报告

数据来源

GitHub

适用场景

  • 软件工程研究:分析开源项目代码审查实践与安全性的关联
  • 数据科学应用:基于代码审查数据构建回归分析模型
  • 开源社区分析:探究不同编程语言项目的代码审查特征
  • 学术研究复现:复现“现代代码审查与开源项目安全性”研究的结果
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 10.07 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。