数据集

来自X的仇恨言论和冒犯性语言数据集

来自X的仇恨言论和冒犯性语言数据集数据来源：互联网公开数据标签：仇恨言论,冒犯性语言,社交媒体数据,文本分析,自然语言处理,三元分类,数据清理数据概述：本数据集通过名为“Instant Data Scraper”的工具从Twitter页面上收集了21,010条文本数据。该工具如同一个高效的网络爬虫，每隔1到20秒收集一次信息，确保从页面上获取所有相关信息并保存在电子表格中。数据集中每条记录包含用户名、推文内容及标签，标签用于区分仇恨言论、冒犯性言论和正常言论。数据用途概述：该数据集适用于仇恨言论识别、冒犯性语言检测、社交媒体内容分析等多种应用场景。研究人员可以利用此数据集进行自然语言处理研究；企业能够通过分析数据识别潜在的风险内容；政策制定者可以根据数据评估相关法律法规的有效性。此外，数据集也适合用于教育培训，帮助学习者理解文本分析和语言处理的基本原理。举例：数据集中，每条推文被标记为1（仇恨言论）、2（冒犯性言论）或3（正常言论）。仇恨言论标记标准包括去人性化、暴力倾向及鼓励暴力行为的内容，同时涉及性话题的内容也被视为仇恨言论。冒犯性言论标记标准涵盖负面情绪、粗俗语言、批评、可能令人不适的内容、刻薄言辞、轻视或贬低以及带有威胁性的言论。正常言论则包括讨论政治、表达不满或兴奋以及不传播仇恨的内容。

数据与资源

来自X的仇恨言论和冒犯性语言数据集.zipZIP
1.56 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.56 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

来自X的仇恨言论和冒犯性语言数据集

数据与资源

附加信息

注册成功！