BotHunter_GitHub_Software_Bots_Detection_Data

数据集概述

本数据集为BotHunter方法检测GitHub软件机器人的输出数据,包含Oracle(基准数据)和BIMAN模型输出结果,共3个文件。内容涉及GitHub仓库中开发者的活动统计与机器人预测概率,可用于软件机器人检测方法的验证与分析。

文件详解

  • Examined_repositories_bots.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含被检测的GitHub仓库及相关机器人信息(具体字段未提供预览)
  • BIMAN_output.csv
  • 文件格式:CSV
  • 字段映射介绍:包含author(作者)、Email(邮箱)、login(登录名)、predict.probability(预测概率)字段,记录BIMAN模型对开发者的机器人预测结果
  • Oracle.csv
  • 文件格式:CSV
  • 字段映射介绍:包含login(登录名)、Total number of Repo activities(仓库活动总数)、Unique number of Repo activities(仓库活动唯一数)、Total number of PR activities(PR活动总数)、Unique number of PR activities(PR活动唯一数)、Total number of Issue activities(Issue活动总数)、Unique number of Issue activities(Issue活动唯一数)等字段,记录开发者在GitHub的活动统计基准数据

适用场景

  • GitHub软件机器人检测验证: 对比Oracle基准数据与BIMAN模型输出,评估机器人检测方法的准确性
  • 开发者活动模式分析: 通过Oracle.csv的活动统计字段,研究GitHub开发者的行为特征与机器人的差异
  • 代码仓库自动化行为研究: 分析软件机器人在GitHub仓库中的参与度与活动类型分布
  • 开源社区治理支持: 为识别开源项目中的自动化贡献者、优化社区管理提供数据参考
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.79 MiB
最后更新 2026年1月13日
创建于 2026年1月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。