数据集概述
本数据集为基于Github仓库的问题标签研究补充材料,包含问题标签使用、创建、相似性分析及生命周期关联数据,涉及标签与问题标题、描述、评论的关系,以及仓库标签统计信息,支持开源项目维护与演化研究。
文件详解
- 数据文件(CSV格式):
- Labeling-Info.csv:可能包含问题标签基本信息数据
- Label-Title-Body-Comments-Relation.csv:记录仓库问题标签与标题、正文、评论的关联关系,字段包括仓库名、标题相关性、关联次数、相关标签等
- Repository-Events-Assign-Comments-Statistics.csv:统计仓库问题事件数据,字段包括问题数、标签/未标签事件数、订阅数、分配数、评论数等
- Labels-Classification.csv:问题标签分类数据
- Labeling-Event-Time.csv:问题标签事件时间数据
- 代码文件(Python格式):
- count_collections.py、Repo_Labels_Class.py、MainFile.py、PreProcessingPhaseScript.py、MainFilePreprocessing.py、filesCreator.py:数据处理与分析相关脚本
- 代码文件(R格式):
- labeling_statistics.R:标签统计分析脚本
- 文档文件(PDF格式):
- Complementary-Apendix.pdf:补充附录文档
适用场景
- 开源项目管理研究:分析Github仓库问题标签使用模式与项目维护效率的关联
- 软件演化分析:探究项目演化过程中标签创建与使用的变化趋势
- 问题跟踪系统优化:研究标签与问题标题、描述、评论的关系,优化标签推荐机制
- 数据驱动的开源协作研究:基于标签数据挖掘开源社区协作行为特征