数据集概述
本数据集记录NumFocus组织支持的58个开源项目在2022年1月至2024年12月期间的贡献者活动,包含271万余条细粒度操作记录(Actions)和228万余条高层任务记录(Activities),通过结构化抽象解决GitHub原始日志的分析难题,为开源协作行为研究提供标准化数据支持。
文件详解
- 操作数据集(Actions)
- 文件名称:NumFocus_Jan22-Dec24_GH_Actions.zip
- 文件格式:ZIP(内含JSON Lines格式文件)
- 字段映射介绍:包含action(操作类型)、event_id(事件ID)、date(时间戳)、actor(贡献者信息)、repository(仓库信息)、details(操作详情)等字段,覆盖24种具体操作类型
- 任务数据集(Activities)
- 文件名称:NumFocus_Jan22-Dec24_GH_Activities.zip
- 文件格式:ZIP(内含JSON Lines格式文件)
- 字段映射介绍:包含activity(任务类型)、start_date/end_date(时间范围)、actor(贡献者信息)、repository(仓库信息)、actions(关联操作列表)等字段,覆盖21种高层任务类型
- 操作模式文件
- 文件名称:action_schema.json
- 文件格式:JSON
- 字段映射介绍:操作数据集的验证模式文件,确保数据一致性
- 任务模式文件
- 文件名称:activity_schema.json
- 文件格式:JSON
- 字段映射介绍:任务数据集的验证模式文件,支持数据集成与验证
数据来源
NumFocus组织支持的开源项目GitHub事件日志
适用场景
- 开源社区协作模式研究: 分析贡献者在58个项目中的操作行为与任务完成模式
- 贡献者行为特征分析: 通过细粒度操作记录识别核心贡献者的行为偏好与协作风格
- 开源项目治理评估: 利用高层任务数据评估项目的任务完成效率与流程规范性
- 社区健康度监测: 基于活动时间分布与操作类型统计,量化社区活跃度与可持续性
- 开源协作工具优化: 为GitHub等平台的协作功能设计提供真实行为数据支撑