GitHub_Based_开源社区机器人与人类活动行为分析数据_2022_2023

数据集概述

本数据集包含2022年11月25日至2023年4月15日期间,GitHub平台上350个机器人和620个人类贡献者的1,015,422条高级活动记录,涵盖24种活动类型,基于GitHub Event API获取的1,221,907条低级事件生成,用于分析机器人与人类的行为模式及协作软件开发中的角色。

文件详解

  • bot_activities.json
  • 文件格式:JSON
  • 字段映射介绍:包含350个机器人贡献者的754,165条活动记录,字段包括date(活动时间)、activity(活动类型)、contributor(机器人登录名)、repository(仓库名)及对应活动类型的扩展字段(如issue、pull_request、comment等)
  • human_activities.json
  • 文件格式:JSON
  • 字段映射介绍:包含620个匿名人类贡献者的261,258条活动记录,字段与bot_activities.json一致,部分敏感信息(如contributor、repository、title等)标注为"anonymised"
  • JsonSchema.json
  • 文件格式:JSON
  • 字段映射介绍:用于验证bot_activities.json和human_activities.json的JSON模式文件,定义了所有活动类型的字段结构、类型及格式要求
  • bots.txt
  • 文件格式:TEXT
  • 字段映射介绍:包含350个机器人贡献者的登录名列表,每行一个登录名

数据来源

论文“A Dataset of Bot and Human Activities in GitHub”(DOI: https://www.doi.org/10.1109/MSR59073.2023.00070

适用场景

  • 开源社区机器人识别工具开发: 基于机器人与人类的活动模式差异,训练和优化机器人识别模型
  • 协作软件开发行为分析: 研究机器人与人类在代码贡献、问题处理、拉取请求等环节的行为特征及协作机制
  • 开源项目治理优化: 分析机器人在项目维护中的角色与价值,为开源项目治理策略提供数据支持
  • 软件工程实证研究: 探索机器人对软件开发效率、质量及社区活跃度的影响
  • GitHub活动类型映射研究: 验证低级事件与高级活动之间的映射关系,完善开源活动分类体系
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 498.12 MiB
最后更新 2026年1月18日
创建于 2026年1月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。