TwiBot22_Based_推特机器人检测基准数据集

数据集概述

本数据集为TwiBot-22推特机器人检测基准,包含推特、用户、列表、话题标签四类实体信息,以及训练/验证/测试划分、真实标签和网络边数据。旨在解决现有基于图的推特机器人检测数据集规模有限、结构不完整、标注质量低的问题,支持新型图基机器人检测方法的开发与评估。

文件详解

  • readme.md
  • 文件格式:MD
  • 字段映射介绍:数据集结构说明文档,包含实体类型、划分、标签及网络边的文件说明。
  • label.csv
  • 文件格式:CSV
  • 字段映射介绍:包含id(用户ID)、label(标签,值为human或bot)字段,记录用户的真实标签。
  • split.csv
  • 文件格式:CSV
  • 字段映射介绍:包含id(用户ID)、split(划分,值为train等)字段,记录用户的训练/验证/测试划分。
  • user.json
  • 文件格式:JSON
  • 字段映射介绍:包含用户信息,具体字段需参考Twitter API可检索内容。

数据来源

论文“TwiBot22: Towards Graph-Based Twitter Bot Detection”

适用场景

  • 推特机器人检测模型开发: 用于训练和评估基于图结构的推特机器人检测算法。
  • 社交媒体内容安全研究: 分析机器人账号特征,支持虚假信息治理和社交媒体内容审核。
  • 社交网络结构分析: 基于实体关系网络,研究推特平台的用户交互模式与信息传播机制。
  • 基准数据集对比实验: 作为标准化基准,促进不同机器人检测方法的性能比较与技术进步。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 786.41 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。