来自X的仇恨言论和冒犯性语言数据集

来自X的仇恨言论和冒犯性语言数据集 数据来源:互联网公开数据 标签:仇恨言论,冒犯性语言,社交媒体数据,文本分析,自然语言处理,三元分类,数据清理 数据概述: 本数据集通过名为“Instant Data Scraper”的工具从Twitter页面上收集了21,010条文本数据。该工具如同一个高效的网络爬虫,每隔1到20秒收集一次信息,确保从页面上获取所有相关信息并保存在电子表格中。数据集中每条记录包含用户名、推文内容及标签,标签用于区分仇恨言论、冒犯性言论和正常言论。 数据用途概述: 该数据集适用于仇恨言论识别、冒犯性语言检测、社交媒体内容分析等多种应用场景。研究人员可以利用此数据集进行自然语言处理研究;企业能够通过分析数据识别潜在的风险内容;政策制定者可以根据数据评估相关法律法规的有效性。此外,数据集也适合用于教育培训,帮助学习者理解文本分析和语言处理的基本原理。 举例: 数据集中,每条推文被标记为1(仇恨言论)、2(冒犯性言论)或3(正常言论)。仇恨言论标记标准包括去人性化、暴力倾向及鼓励暴力行为的内容,同时涉及性话题的内容也被视为仇恨言论。冒犯性言论标记标准涵盖负面情绪、粗俗语言、批评、可能令人不适的内容、刻薄言辞、轻视或贬低以及带有威胁性的言论。正常言论则包括讨论政治、表达不满或兴奋以及不传播仇恨的内容。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.56 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。