数据集概述
本数据集包含2022年11月25日至2023年4月15日期间,GitHub平台上350个机器人和620个人类贡献者的1,015,422条高级活动记录,涵盖24种活动类型,基于GitHub Event API获取的1,221,907条低级事件生成,用于分析机器人与人类的行为模式及协作软件开发中的角色。
文件详解
- bot_activities.json
- 文件格式:JSON
- 字段映射介绍:包含350个机器人贡献者的754,165条活动记录,字段包括date(活动时间)、activity(活动类型)、contributor(机器人登录名)、repository(仓库名)及对应活动类型的扩展字段(如issue、pull_request、comment等)
- human_activities.json
- 文件格式:JSON
- 字段映射介绍:包含620个匿名人类贡献者的261,258条活动记录,字段与bot_activities.json一致,部分敏感信息(如contributor、repository、title等)标注为"anonymised"
- JsonSchema.json
- 文件格式:JSON
- 字段映射介绍:用于验证bot_activities.json和human_activities.json的JSON模式文件,定义了所有活动类型的字段结构、类型及格式要求
- bots.txt
- 文件格式:TEXT
- 字段映射介绍:包含350个机器人贡献者的登录名列表,每行一个登录名
数据来源
论文“A Dataset of Bot and Human Activities in GitHub”(DOI: https://www.doi.org/10.1109/MSR59073.2023.00070)
适用场景
- 开源社区机器人识别工具开发: 基于机器人与人类的活动模式差异,训练和优化机器人识别模型
- 协作软件开发行为分析: 研究机器人与人类在代码贡献、问题处理、拉取请求等环节的行为特征及协作机制
- 开源项目治理优化: 分析机器人在项目维护中的角色与价值,为开源项目治理策略提供数据支持
- 软件工程实证研究: 探索机器人对软件开发效率、质量及社区活跃度的影响
- GitHub活动类型映射研究: 验证低级事件与高级活动之间的映射关系,完善开源活动分类体系