数据集概述
本数据集为BotHunter方法检测GitHub软件机器人的输出数据,包含Oracle(基准数据)和BIMAN模型输出结果,共3个文件。内容涉及GitHub仓库中开发者的活动统计与机器人预测概率,可用于软件机器人检测方法的验证与分析。
文件详解
- Examined_repositories_bots.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含被检测的GitHub仓库及相关机器人信息(具体字段未提供预览)
- BIMAN_output.csv
- 文件格式:CSV
- 字段映射介绍:包含author(作者)、Email(邮箱)、login(登录名)、predict.probability(预测概率)字段,记录BIMAN模型对开发者的机器人预测结果
- Oracle.csv
- 文件格式:CSV
- 字段映射介绍:包含login(登录名)、Total number of Repo activities(仓库活动总数)、Unique number of Repo activities(仓库活动唯一数)、Total number of PR activities(PR活动总数)、Unique number of PR activities(PR活动唯一数)、Total number of Issue activities(Issue活动总数)、Unique number of Issue activities(Issue活动唯一数)等字段,记录开发者在GitHub的活动统计基准数据
适用场景
- GitHub软件机器人检测验证: 对比Oracle基准数据与BIMAN模型输出,评估机器人检测方法的准确性
- 开发者活动模式分析: 通过Oracle.csv的活动统计字段,研究GitHub开发者的行为特征与机器人的差异
- 代码仓库自动化行为研究: 分析软件机器人在GitHub仓库中的参与度与活动类型分布
- 开源社区治理支持: 为识别开源项目中的自动化贡献者、优化社区管理提供数据参考