仇恨言论和冒犯性推文数据集

仇恨言论和冒犯性推文数据集 数据来源:互联网公开数据 标签:仇恨言论,冒犯性语言,社交媒体,推特,文本分析,自然语言处理,社会伦理

数据概述: 该数据集包含从2017年Davidson等人的研究中收集的约24,000条推文记录。数据集通过使用仇恨言论词汇表从Twitter中筛选出相关推文,并由至少3名CrowdFlower用户对每条推文进行分类,分为仇恨言论、冒犯性语言和其他两类。数据集中仅约5%的推文被判定为仇恨言论,其余推文则被判定为冒犯性语言或其他。

数据用途概述: 该数据集适用于仇恨言论检测算法的研究、冒犯性语言识别技术的开发以及社交媒体内容审核系统的构建。研究人员可以利用此数据集评估和改进自动化检测模型的性能,同时也有助于了解不同类别言论在社交媒体上的分布和特征。此外,该数据集还可以用于伦理学和社会学领域的研究,探讨网络环境中语言暴力的影响和应对策略。

数据字段定义: - count:每个推文被CrowdFlower用户标记的次数(最低为3次,有时更多用户会标记以确保判断的可靠性)。 - hate_speech:判定为仇恨言论的CrowdFlower用户数量。 - offensive_language:判定为冒犯性语言的CrowdFlower用户数量。 - neither:判定为既非仇恨言论也非冒犯性语言的CrowdFlower用户数量。 - class:多数CrowdFlower用户判定的类别标签,其中0代表仇恨言论,1代表冒犯性语言,2代表其他。 - tweet:被CrowdFlower用户标记的推文文本内容。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 14, 2025, 23:02 (UTC)
创建于 四月 14, 2025, 23:02 (UTC)