开源GitHub仓库星标-问题与拉取请求数据分析集-2011-mohammedmecheter
数据来源:互联网公开数据
标签:GitHub,开源项目,数据集,星标,问题,拉取请求,数据清理,时间序列,编程
数据概述:
本数据集包含了通过GitHub API收集的GitHub仓库、问题和拉取请求的详细信息。数据涵盖了仓库的元数据(如星标数、分支数、开放问题数)以及历史数据(包括问题和拉取请求的创建、关闭和合并时间线)。数据集分为三个部分:仓库数据、问题数据和拉取请求数据。
仓库数据字典:
本部分数据包含GitHub仓库的详细信息,包括元数据,如星标数、分支数和活动状态。
列名 数据类型 描述
id object 仓库的唯一标识符
name object 仓库名称(例如:"docker")
full_name object 仓库的完整名称(例如:"prometheus/alertmanager")
description object 仓库的描述,可能为空
stars int64 仓库获得的星标数
forks int64 仓库被分支的次数
open_issues int64 仓库中的开放问题数
created_at datetime 仓库创建的日期和时间
updated_at datetime 仓库最后更新的日期和时间
size_category object 基于星标数对仓库的分类(micro, small, medium, large, mega)
stale bool 布尔值标志,指示仓库是否“过时”(超过6个月未更新)
stars_per_fork float64 每次分支获得的星标数(计算得出)
stars_per_issue float64 每个开放问题获得的星标数(计算得出)
contributor_per_star float64 每个星标对应的贡献者数(计算得出)
total_contributors int64 通过问题和拉取请求的总贡献者数
问题数据字典:
本部分数据包含仓库中提出的问题详情,包括创建、关闭和状态的相关信息。
列名 数据类型 描述
id object 问题的唯一标识符
created_at datetime 问题创建的日期和时间
updated_at datetime 问题最后更新的日期和时间
closed_at datetime 问题关闭的日期和时间(可选,未关闭则为空)
number int64 GitHub仓库中的问题编号
repository object 问题所属的仓库名称
state object 问题的当前状态("open"或"closed")
title object 问题的标题
resolution_time_days float64 解决问题所用的天数(计算得出,未解决则为-1)
拉取请求数据字典:
本部分数据包含仓库中的拉取请求信息,包括元数据,如状态、创建、关闭和合并时间。
列名 数据类型 描述
id object 拉取请求的唯一标识符
created_at datetime 拉取请求创建的日期和时间
updated_at datetime 拉取请求最后更新的日期和时间
closed_at datetime 拉取请求关闭的日期和时间(可选,未关闭则为空)
merged_at datetime 拉取请求合并的日期和时间(可选,未合并则为空)
number int64 GitHub仓库中的拉取请求编号
repository object 拉取请求所属的仓库名称
state object 拉取请求的当前状态("open"、"closed"或"merged")
title object 拉取请求的标题
merge_time_days float64 合并拉取请求所用的天数(计算得出,未合并则为-1)
一般注意事项:
日期列:所有created_at、updated_at、closed_at和merged_at列均为UTC时区
数值列:如stars、forks和open_issues等字段缺失时,使用0填充
缺失数据:对于closed_at或merged_at等可选字段,缺失值处理为空值(或Pandas中的NaN)
计算列:resolution_time_days、merge_time_days和contributor_per_star等列是在数据清理和转换过程中添加的派生指标
附加文件和使用说明:
CSV文件:清洗和转换后的数据集保存为.csv文件
repo_data.csv:清洗后的仓库数据
issues_data.csv:清洗后的问题数据
pr_data.csv:清洗后的拉取请求数据
数据用途概述:
该数据集适用于开源项目分析、开发贡献者行为研究、项目健康度评估等多个场景。研究人员可以利用此数据了解项目的活跃度和参与度;开发者可以分析项目中的问题和拉取请求以优化项目管理流程;政策制定者可基于数据评估开源项目的健康状况和社区活跃度。此外,数据集也适合用于教育培训,帮助学习者理解开源项目的运作机制和开发过程中的沟通协作模式。