数据集概述
本数据集包含Twitter平台上多起公开羞辱事件的推文ID,分为约87万条未标记数据和1227条标记数据,共4个文件。数据集涵盖事件描述、标记与未标记推文ID,可用于网络公开羞辱行为的检测、分析与缓解研究。
文件详解
- README
- 文件格式:无扩展名
- 字段映射介绍:包含数据集概述及各文件说明
- shaming-events-description
- 文件格式:无扩展名
- 字段映射介绍:包含EventId(事件ID)、Name of the Victim(受害者姓名)、approximate date/year of the event(事件大致日期/年份)
- unlabelled-tweetIds-eventIds.zip
- 文件格式:ZIP
- 字段映射介绍:包含约87万条未标记的推文ID及其对应事件ID
- annotated-tweetIds-eventIds-labelCD.zip
- 文件格式:ZIP
- 字段映射介绍:包含1228条标记推文,字段包括推文ID、事件ID、标签(如Abusive-AB、Comparison-CO、Passing judgment-PJ等)
数据来源
论文“Online Public Shaming on Twitter: Detection, Analysis, and Mitigation”
适用场景
- 网络公开羞辱行为检测: 利用标记数据训练模型,识别Twitter中的公开羞辱内容
- 社交媒体事件分析: 分析不同公开羞辱事件的特征、传播路径及影响范围
- 羞辱言论分类研究: 基于标签类别(AB/CO/PJ等)研究羞辱言论的类型与表现形式
- 社交平台内容治理: 为Twitter等平台制定公开羞辱行为的缓解策略提供数据支持