开源软件缺陷重发现数据集1999_2017

数据集概述

本数据集包含从Bugzilla挖掘的Apache、Eclipse、KDE三大开源软件项目的缺陷重发现数据,覆盖1999-2017年约九十一万四千条缺陷报告,记录重复缺陷间的关联关系。

文件详解

  • 项目缺陷数据文件:
  • apache.csv、eclipse.csv、kde.csv(CSV格式):各项目缺陷报告基础数据,字段含id、product、component、bug_status、dup_list等
  • 缺陷关联数据文件:
  • apache.relations.csv、eclipse.relations.csv、kde.relations.csv(CSV格式):记录各项目重复缺陷的关联关系,字段为id(缺陷ID)、dup(关联缺陷ID)
  • 数据库导入脚本:
  • create_and_populate_neo4j_objects.cypher(Cypher格式):Neo4j图数据库数据导入脚本
  • create_and_populate_mysql_objects.sql(SQL格式):MySQL关系数据库数据导入脚本
  • 数据库备份文件:
  • rediscovery_db_mysql.zip(ZIP格式):MySQL数据库完整备份
  • 查询示例文件:
  • neo4j_examples.txt、mysql_examples.txt(TXT格式):Neo4j与MySQL的查询示例
  • 辅助文件:
  • rediscovery_eclipse_6325.png(PNG格式):Neo4j查询示例输出图
  • distinct_attrs.csv(CSV格式):各项目缺陷状态、优先级等字段的 distinct 值

数据来源

Bugzilla

适用场景

  • 软件缺陷管理研究:分析重复缺陷的分布特征与关联模式
  • 缺陷预测模型构建:基于历史数据开发重复缺陷预测算法
  • 开源社区协作分析:探究开源项目缺陷处理的协作效率
  • 数据库应用案例:作为图数据库与关系数据库数据导入、查询的实践案例
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 172.19 MiB
最后更新 2025年12月10日
创建于 2025年12月10日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。