仇恨言论和冒犯性推文数据集
数据来源:互联网公开数据
标签:仇恨言论,冒犯性语言,社交媒体,推特,文本分析,自然语言处理,社会伦理
数据概述:
该数据集包含从2017年Davidson等人的研究中收集的约24,000条推文记录。数据集通过使用仇恨言论词汇表从Twitter中筛选出相关推文,并由至少3名CrowdFlower用户对每条推文进行分类,分为仇恨言论、冒犯性语言和其他两类。数据集中仅约5%的推文被判定为仇恨言论,其余推文则被判定为冒犯性语言或其他。
数据用途概述:
该数据集适用于仇恨言论检测算法的研究、冒犯性语言识别技术的开发以及社交媒体内容审核系统的构建。研究人员可以利用此数据集评估和改进自动化检测模型的性能,同时也有助于了解不同类别言论在社交媒体上的分布和特征。此外,该数据集还可以用于伦理学和社会学领域的研究,探讨网络环境中语言暴力的影响和应对策略。
数据字段定义:
- count:每个推文被CrowdFlower用户标记的次数(最低为3次,有时更多用户会标记以确保判断的可靠性)。
- hate_speech:判定为仇恨言论的CrowdFlower用户数量。
- offensive_language:判定为冒犯性语言的CrowdFlower用户数量。
- neither:判定为既非仇恨言论也非冒犯性语言的CrowdFlower用户数量。
- class:多数CrowdFlower用户判定的类别标签,其中0代表仇恨言论,1代表冒犯性语言,2代表其他。
- tweet:被CrowdFlower用户标记的推文文本内容。