香港证监会注册数据集-姓名蕴含的人口统计信息丰富数据集-2003至今-gautiermarti

香港证监会注册数据集-姓名蕴含的人口统计信息丰富数据集-2003至今-gautiermarti 数据来源:互联网公开数据 标签:香港证监会,注册数据,人口统计信息,性别,种族,年龄,姓名分析,大数据,语言模型

数据概述: 本数据集基于香港证券及期货委员会(SFC)的公开注册记录,涵盖了自2003年4月1日《证券及期货条例》(SFO)实施以来的所有持证个人、公司和机构。该数据集记录了从事受规管活动(如证券交易和财务咨询)的高资格、专业和负责任的角色。

原始未丰富版本的数据集可在Kaggle上找到。此数据集已通过使用十二种不同的大型语言模型(六种开源模型和六种专有模型)增加了人口统计信息,包括国籍、种族、年龄和性别等。

关于数据丰富过程的更多详细信息,请参阅论文《通过大型语言模型增加数据集的人口统计信息:姓名蕴含什么?》。

数据用途概述: 该数据集适用于医疗保健、公共政策、社会科学等多个领域的研究。通过对姓名的分析,可以获取人口统计信息,从而实现对目标群体更精确和有效的参与。研究人员可以利用这些数据进行市场调研、政策评估和学术研究;企业和组织可以利用这些数据进行市场细分和客户分析。此外,该数据集也是数据科学和机器学习领域的研究者进行模型训练和验证的宝贵资源。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 31.36 MiB
最后更新 2025年4月26日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。