美国姓名性别预测数据集

美国姓名性别预测数据集 数据来源:互联网公开数据 标签:姓名,性别,美国,人口统计,社会安全号码,出生年份,频率分析,隐私保护

数据概述: 本数据集包含美国自1879年以来每年出生并拥有社会安全号码个体的姓名及其性别的相对频率数据。数据来源于美国社会安全管理局的社会安全号码记录,截止至2019年3月3日。对于每年出生的个体,数据集生成一个名为yobYYYY.txt的文件(YYYY为年份)。每个记录的格式为“姓名,性别,数量”,其中姓名长度为2到15个字符,性别用M(男)或F(女)表示,数量表示该姓名在当年的出现次数。每个文件首先按性别排序,然后按出现次数降序排列,当出现次数相同时按字母顺序排列。这种排序方式使得可以轻松确定姓名的排名。每个性别的第一个记录排名为1,第二个记录排名为2,以此类推。为保护隐私,数据集仅包含出现次数至少为5次的姓名。

数据用途概述: 该数据集适用于姓名性别预测、人口统计分析、社会安全号码研究等场景。研究者可以利用此数据集进行性别分布的研究,了解不同年份中特定姓名的流行程度及其变化趋势。此外,数据集也可以用于教育培训,帮助学习者理解姓名分布与社会文化背景之间的关系。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.77 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。