推特种族歧视言论抓取数据集-2021年

推特种族歧视言论抓取数据集-2021年 数据来源:互联网公开数据 标签:推特,种族歧视,大数据,情感分析,机器学习,遗传算法,随机森林,负载均衡,数据抓取

数据概述: 本数据集包含通过网络抓取的2021年推特平台上关于种族歧视的6,942,021条推文,数据总量约为1.14 GB。该数据集是阿瓜斯卡连特斯自治大学智能计算工程专业学生在第七学期“元启发式算法1”课程中完成的项目成果。项目团队使用Python库Tweepy通过开发者账号进行了大规模数据抓取,并开发了一个程序以每15分钟900次请求的速度持续获取数据,以模拟大数据操作。数据集中的每条推文都经过清理和预处理,包括使用NLTK库进行词形还原。

数据用途概述: 该数据集适用于情感分析研究、社交媒体监控、种族歧视研究、机器学习模型训练和优化等场景。研究人员可以利用此数据集训练和评估情感分析模型,分析推特上关于种族歧视的言论趋势和情感倾向;政府和非政府组织可以利用数据监控网络上的种族歧视现象;教育机构可以将其作为教学资源,帮助学生理解大数据处理、情感分析和机器学习的基本概念。

项目团队采用简单遗传算法作为动态负载均衡器,实现了六台计算机的并行处理,提高了数据处理速度。情感分析采用随机森林模型,通过sci-kit learn库实现,模型准确率达到0.9999157。项目详情可参考以下链接:[项目链接]

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 498.7 MiB
最后更新 2025年6月1日
创建于 2025年6月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。