推特用户性别预测数据集

推特用户性别预测数据集 数据来源:互联网公开数据
标签:推特,性别预测,自然语言处理,机器学习,文本分析,社会语言学,性别识别

数据概述:
本数据集包含2019年5月21日至2019年6月1日期间通过Twitter API获取的推文文本数据。数据集包括用户ID、推文时间戳、推文文本内容以及基于用户名显示性别(男性或女性)的标识信息。推文内容经过筛选,仅保留英文、非转推的原创推文,并且排除了无法通过性别识别工具判断性别的用户名。数据集分为训练集、验证集和测试集,按时间和用户ID进行划分,确保各部分数据无重叠且时间顺序严格递进。推文内容经过预处理,去除了 hashtags、@提及、URL、媒体链接及特殊符号。最终数据集在性别分布上保持平衡,即“男性”和“女性”两类数据样本数量相近。

数据用途概述:
该数据集适用于多个研究场景:
1. 训练机器学习模型以预测推特用户的性别,探索文本内容与性别之间的关系。
2. 进行性别社会语言学研究,分析不同性别用户在推文内容上的语言特征差异。
3. 支持自然语言处理任务,如文本分类、情感分析以及性别相关特征提取。
4. 评估和优化性别识别算法的性能,为性别识别技术的研究提供基准数据集。
5. 支持教学和培训,帮助学习者理解如何利用文本数据进行性别预测任务。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 2.44 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。