ML4SE_TertiaryStudy_软件工程中机器学习应用三级研究数据集

数据集概述

本数据集是论文《Machine Learning for Software Engineering: A Tertiary Study》的配套数据,系统收集、评估并分类了2009-2022年间发表的83篇机器学习在软件工程领域的综述(含6117项原始研究),涵盖研究协议、文献检索、研究筛选、质量评估、数据提取及分析代码等全流程内容,为该交叉领域的研究提供结构化参考。

文件详解

  • 研究协议文件
  • 文件名称:review-protocol.md
  • 文件格式:MD
  • 字段映射介绍:记录本三级研究采用的方法学协议
  • 文献检索数据(data/dl-search/input)
  • 文件名称:acm_comput_surveys_overviews.bib、acm_comput_surveys_overviews_titles.txt、acm_comput_ml_surveys.bib、acm_comput_ml_surveys_titles.txt、dl_search_queries.txt、ml_keywords.txt、se_keywords.txt、secondary_studies_keywords.txt
  • 文件格式:BIB、TXT
  • 字段映射介绍:包含ACM期刊综述文献、检索关键词(ML/SE/综述类)、三大数据库检索策略
  • 文献检索结果(data/dl-search/output)
  • 文件名称:acm/acm{1–9}.bib、ieee.csv、scopus_analyze_year.csv、scopus.csv
  • 文件格式:BIB、CSV
  • 字段映射介绍:ACM/IEEE/Scopus三大数据库检索结果,含文献年度分布统计
  • 研究筛选数据(data/study-selection)
  • 文件名称:backward_snowballing.csv、backward_snowballing_references.csv、cohen_kappa_agreement.csv、dl_search_results.csv、forward_snowballing_reviewer_{1,2}.csv、study_selection_reviewer_{1,2}.csv
  • 文件格式:CSV
  • 字段映射介绍:文献筛选结果(含前后向滚雪球法数据)、筛选一致性检验(Cohen's Kappa)、双评者筛选记录
  • 质量评估数据(data/quality-assessment)
  • 文件名称:dare_assessment.csv、quality_accepted_studies.csv、studies_for_review.bib
  • 文件格式:CSV、BIB
  • 字段映射介绍:基于DARE标准的文献质量评估结果、合格文献详情及参考文献
  • 数据提取结果(data/data-extraction)
  • 文件名称:further_research.csv、further_research_general.csv、knowledge_areas.csv、ml_techniques.csv、primary_studies.csv、research_methods.csv、research_types_methods.csv
  • 文件格式:CSV
  • 字段映射介绍:研究推荐方向、SWEBOK知识域分类、ML技术分类、原始研究详情、研究方法统计
  • 分析代码(src)
  • 文件名称:data-analysis.ipynb、scopus-year-analysis.ipynb、study-selection-preprocessing.ipynb
  • 文件格式:IPYNB
  • 字段映射介绍:数据预处理、统计分析(作者/机构/年度分布等)、可视化代码、文献筛选流程处理代码

数据来源

论文“Machine Learning for Software Engineering: A Tertiary Study”

适用场景

  • 软件工程与机器学习交叉领域研究: 分析ML在SE各子领域(如软件质量、测试)的应用现状与趋势
  • 文献综述方法学参考: 为三级研究提供全流程(检索-筛选-评估-提取)的方法学范例
  • 研究热点挖掘: 通过关键词、研究推荐方向数据识别该领域未来研究重点
  • 学术资源整合: 利用文献数据库检索结果及原始研究列表,构建该领域的文献资源库
  • 质量评估标准应用: 基于DARE标准的文献质量评估数据,可用于相关领域的综述质量控制研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.61 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。