数据集

推特用户性别预测数据集

推特用户性别预测数据集数据来源：互联网公开数据
标签：推特,性别预测,自然语言处理,机器学习,文本分析,社会语言学,性别识别

数据概述：
本数据集包含2019年5月21日至2019年6月1日期间通过Twitter API获取的推文文本数据。数据集包括用户ID、推文时间戳、推文文本内容以及基于用户名显示性别（男性或女性）的标识信息。推文内容经过筛选，仅保留英文、非转推的原创推文，并且排除了无法通过性别识别工具判断性别的用户名。数据集分为训练集、验证集和测试集，按时间和用户ID进行划分，确保各部分数据无重叠且时间顺序严格递进。推文内容经过预处理，去除了 hashtags、@提及、URL、媒体链接及特殊符号。最终数据集在性别分布上保持平衡，即“男性”和“女性”两类数据样本数量相近。

数据用途概述：
该数据集适用于多个研究场景：
1. 训练机器学习模型以预测推特用户的性别，探索文本内容与性别之间的关系。
2. 进行性别社会语言学研究，分析不同性别用户在推文内容上的语言特征差异。
3. 支持自然语言处理任务，如文本分类、情感分析以及性别相关特征提取。
4. 评估和优化性别识别算法的性能，为性别识别技术的研究提供基准数据集。
5. 支持教学和培训，帮助学习者理解如何利用文本数据进行性别预测任务。

数据与资源

推特用户性别预测数据集.zipZIP
2.44 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	2.44 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

推特用户性别预测数据集

数据与资源

附加信息

注册成功！