数据集概述
本数据集是论文《Evaluating Classifiers in SE Research: The ECSER Pipeline and Two Replication Studies》的补充材料,包含ICSE 2019-2021论文元数据、分类器比较代码、复制研究步骤文档及两个原始研究的复现代码与数据,为软件工程分类器评估研究提供支持。
文件详解
- 根目录文件:
- ECSER-ExploratoryStudy.csv:CSV格式,含2019-2021年ICSE发表论文的标注元数据
- ECSER_ROCplots+StatTest.ipynb:Python Notebook格式,用于比较分类器并检验结果的统计显著性
- ECSER_SummaryOfReplicationSteps.pdf:PDF格式,汇总两个原始研究及ECSER应用的步骤
- ECSER_RE:目录,含复现Hay et al.研究的数据集、代码及结果文件
- ECSER_FF:目录,含复现Alshammari et al.研究的数据集与代码
- README.md:Markdown格式,说明补充材料结构
- requirements.txt:文本格式,列出运行代码所需的依赖包
- ECSER_RE目录:
- Classifiers子目录:含多种分类器代码
- Datasets子目录:含公开数据集
- ECSER_RE_Compare_Classifiers.ipynb:Python Notebook格式,运行各分类器的代码
- ECSER_RE_results-Promise-vs-all.csv:CSV格式,分类器比较结果
- ECSER_FF目录:
- 主目录下直接存放数据集
- ECSER-FF-Compare_Classifiers.ipynb:Python Notebook格式,比较原始研究分类器的代码
- ECSER_FF_results子目录:存放分类器比较结果
数据来源
Zenodo
适用场景
- 软件工程研究:复现分类器评估实验,验证研究结果
- 分类器性能分析:使用提供的代码与数据比较不同分类器的效果
- 研究方法参考:学习ECSER流程在软件工程分类器评估中的应用
- 学术论文撰写:为相关研究提供数据支撑与引用资源