恶意社交机器人头像照片分析数据集-VKontakte平台-2023-guardeec
数据来源:互联网公开数据
标签:社交机器人,头像照片,图像识别,恶意软件,社交网络分析,VKontakte,YOLO,CelebDetector,GAN,DTM
数据概述:
本数据集旨在研究不同类型恶意社交机器人(bots)所使用的头像照片。数据集包含来自VKontakte平台的机器人头像照片,以及对这些照片的类型进行分类的结果和机器人的相关指标。为了进行分类,我们使用了多种图像检测器:YOLO(用于识别人物)、CelebDetector(用于识别面部和名人)、GAN-image-detection(用于识别GAN生成图像)、DTM-image-detection(用于识别Diffusion和Transformers模型生成的图像)。GAN和DTM生成的图像均经过手动审核,以纠正误分类。
为了收集机器人并测量其指标,我们在VKontakte上创建了“蜜罐”(假受害者),并购买了机器人的活动。在购买机器人活动期间,我们测量了机器人的属性(例如,行动速度、价格等)。
数据集包含以下文件:
- photos.zip:一个包含机器人头像照片的.JPG格式的压缩文件。每个照片的文件名是其ID。
- dataset.csv:照片分析的结果,其中聚合了各种检测器的输出,并添加了来自MKMETRIC2022数据集的机器人指标。
- celebs_and_faces.csv:CelebDetector的原始输出。
- face_labels.csv:YOLO检测器的原始输出。
- gan.csv:GAN检测器的原始输出。
- dtm.csv:DTM检测器的原始输出。
数据用途概述:
该数据集适用于恶意社交机器人行为分析、社交网络安全研究、图像识别算法评估等场景。研究人员可以利用此数据分析机器人头像照片的特征,了解恶意机器人使用的策略;安全专家可以利用此数据开发检测和防御恶意机器人的方法;机器学习研究人员可以利用此数据训练和评估图像检测模型。此外,该数据集也为社交媒体平台上的恶意行为检测与治理提供了重要的数据支持。