数据集概述
本数据集关联论文《Mining Fork-Including Development Traces》,包含880个Java开源项目的开发轨迹数据,涉及分叉相关的事件记录、项目信息及轨迹变体等内容,支持对分叉类型预测及用户参与度影响的分析。
文件详解
- readme.txt(TXT格式):说明数据集关联的论文、作者及各文件内容概述。
- results_suffix.docx(DOCX格式):论文相关的补充结果文档。
- results_prefix.docx(DOCX格式):论文相关的前置结果文档。
- dataset_trace_variants.xlsx(XLSX格式):包含相关轨迹变体的信息。
- dataset_repos.xlsx(XLSX格式):记录880个纳入研究的开源项目信息。
- dataset_events_relevant.csv(CSV格式):包含研究中使用的、轨迹长度大于1的事件数据,字段有repo_id(项目ID)、event_id(事件ID)、related_element_id(关联元素ID)、timestamp_abs(时间戳)、event(事件类型)、event_cat1(事件分类1)、event_cat2(事件分类2)、user_id(用户ID)、user_type(用户类型)、user_association(用户关联)、target_count(目标计数)。
- dataset_events_all.csv(CSV格式):记录所有项目相关事件数据,字段与dataset_events_relevant.csv一致。
数据来源
论文“Mining Fork-Including Development Traces”
适用场景
- 开源软件开发分叉类型研究:通过事件数据预测分叉类型(贡献型或独立开发型)。
- 软件开发用户参与度分析:探究不同分叉类型对项目用户参与度的影响。
- 开源项目开发轨迹挖掘:利用轨迹变体数据分析项目开发过程特征。
- 软件过程事件模式识别:通过事件分类数据识别开发过程中的关键事件模式。