数据集概述
本数据集包含从Bugzilla挖掘的Apache、Eclipse、KDE三大开源软件项目的缺陷重发现数据,覆盖1999-2017年约九十一万四千条缺陷报告,记录重复缺陷间的关联关系。
文件详解
- 项目缺陷数据文件:
- apache.csv、eclipse.csv、kde.csv(CSV格式):各项目缺陷报告基础数据,字段含id、product、component、bug_status、dup_list等
- 缺陷关联数据文件:
- apache.relations.csv、eclipse.relations.csv、kde.relations.csv(CSV格式):记录各项目重复缺陷的关联关系,字段为id(缺陷ID)、dup(关联缺陷ID)
- 数据库导入脚本:
- create_and_populate_neo4j_objects.cypher(Cypher格式):Neo4j图数据库数据导入脚本
- create_and_populate_mysql_objects.sql(SQL格式):MySQL关系数据库数据导入脚本
- 数据库备份文件:
- rediscovery_db_mysql.zip(ZIP格式):MySQL数据库完整备份
- 查询示例文件:
- neo4j_examples.txt、mysql_examples.txt(TXT格式):Neo4j与MySQL的查询示例
- 辅助文件:
- rediscovery_eclipse_6325.png(PNG格式):Neo4j查询示例输出图
- distinct_attrs.csv(CSV格式):各项目缺陷状态、优先级等字段的 distinct 值
数据来源
Bugzilla
适用场景
- 软件缺陷管理研究:分析重复缺陷的分布特征与关联模式
- 缺陷预测模型构建:基于历史数据开发重复缺陷预测算法
- 开源社区协作分析:探究开源项目缺陷处理的协作效率
- 数据库应用案例:作为图数据库与关系数据库数据导入、查询的实践案例