数据集

仇恨言论和冒犯性推文数据集

仇恨言论和冒犯性推文数据集数据来源：互联网公开数据标签：仇恨言论,冒犯性语言,社交媒体,推特,文本分析,自然语言处理,社会伦理

数据概述：该数据集包含从2017年Davidson等人的研究中收集的约24,000条推文记录。数据集通过使用仇恨言论词汇表从Twitter中筛选出相关推文，并由至少3名CrowdFlower用户对每条推文进行分类，分为仇恨言论、冒犯性语言和其他两类。数据集中仅约5%的推文被判定为仇恨言论，其余推文则被判定为冒犯性语言或其他。

数据用途概述：该数据集适用于仇恨言论检测算法的研究、冒犯性语言识别技术的开发以及社交媒体内容审核系统的构建。研究人员可以利用此数据集评估和改进自动化检测模型的性能，同时也有助于了解不同类别言论在社交媒体上的分布和特征。此外，该数据集还可以用于伦理学和社会学领域的研究，探讨网络环境中语言暴力的影响和应对策略。

数据字段定义： - count：每个推文被CrowdFlower用户标记的次数（最低为3次，有时更多用户会标记以确保判断的可靠性）。 - hate_speech：判定为仇恨言论的CrowdFlower用户数量。 - offensive_language：判定为冒犯性语言的CrowdFlower用户数量。 - neither：判定为既非仇恨言论也非冒犯性语言的CrowdFlower用户数量。 - class：多数CrowdFlower用户判定的类别标签，其中0代表仇恨言论，1代表冒犯性语言，2代表其他。 - tweet：被CrowdFlower用户标记的推文文本内容。

数据与资源

仇恨言论和冒犯性推文数据集.zipZIP
2.36 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	2.36 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

仇恨言论和冒犯性推文数据集

数据与资源

附加信息

注册成功！