数据集概述
本数据集是论文《Machine Learning for Software Engineering: A Tertiary Study》的配套数据,系统收集、评估并分类了2009-2022年间发表的83篇机器学习在软件工程领域的综述(含6117项原始研究),涵盖研究协议、文献检索、研究筛选、质量评估、数据提取及分析代码等全流程内容,为该交叉领域的研究提供结构化参考。
文件详解
- 研究协议文件
- 文件名称:review-protocol.md
- 文件格式:MD
- 字段映射介绍:记录本三级研究采用的方法学协议
- 文献检索数据(data/dl-search/input)
- 文件名称:acm_comput_surveys_overviews.bib、acm_comput_surveys_overviews_titles.txt、acm_comput_ml_surveys.bib、acm_comput_ml_surveys_titles.txt、dl_search_queries.txt、ml_keywords.txt、se_keywords.txt、secondary_studies_keywords.txt
- 文件格式:BIB、TXT
- 字段映射介绍:包含ACM期刊综述文献、检索关键词(ML/SE/综述类)、三大数据库检索策略
- 文献检索结果(data/dl-search/output)
- 文件名称:acm/acm{1–9}.bib、ieee.csv、scopus_analyze_year.csv、scopus.csv
- 文件格式:BIB、CSV
- 字段映射介绍:ACM/IEEE/Scopus三大数据库检索结果,含文献年度分布统计
- 研究筛选数据(data/study-selection)
- 文件名称:backward_snowballing.csv、backward_snowballing_references.csv、cohen_kappa_agreement.csv、dl_search_results.csv、forward_snowballing_reviewer_{1,2}.csv、study_selection_reviewer_{1,2}.csv
- 文件格式:CSV
- 字段映射介绍:文献筛选结果(含前后向滚雪球法数据)、筛选一致性检验(Cohen's Kappa)、双评者筛选记录
- 质量评估数据(data/quality-assessment)
- 文件名称:dare_assessment.csv、quality_accepted_studies.csv、studies_for_review.bib
- 文件格式:CSV、BIB
- 字段映射介绍:基于DARE标准的文献质量评估结果、合格文献详情及参考文献
- 数据提取结果(data/data-extraction)
- 文件名称:further_research.csv、further_research_general.csv、knowledge_areas.csv、ml_techniques.csv、primary_studies.csv、research_methods.csv、research_types_methods.csv
- 文件格式:CSV
- 字段映射介绍:研究推荐方向、SWEBOK知识域分类、ML技术分类、原始研究详情、研究方法统计
- 分析代码(src)
- 文件名称:data-analysis.ipynb、scopus-year-analysis.ipynb、study-selection-preprocessing.ipynb
- 文件格式:IPYNB
- 字段映射介绍:数据预处理、统计分析(作者/机构/年度分布等)、可视化代码、文献筛选流程处理代码
数据来源
论文“Machine Learning for Software Engineering: A Tertiary Study”
适用场景
- 软件工程与机器学习交叉领域研究: 分析ML在SE各子领域(如软件质量、测试)的应用现状与趋势
- 文献综述方法学参考: 为三级研究提供全流程(检索-筛选-评估-提取)的方法学范例
- 研究热点挖掘: 通过关键词、研究推荐方向数据识别该领域未来研究重点
- 学术资源整合: 利用文献数据库检索结果及原始研究列表,构建该领域的文献资源库
- 质量评估标准应用: 基于DARE标准的文献质量评估数据,可用于相关领域的综述质量控制研究