维基百科人物内容数据集

维基百科人物内容数据集 数据来源:互联网公开数据
标签:维基百科,人物,内容分析,文本挖掘,知识图谱,自然语言处理,数据分析
数据概述:
本数据集包含维基百科中以人物为主题的条目,涵盖真实人物、虚构角色以及非人类实体等。数据集中包含两个主要字段:Wiki_Title(维基百科标题)和Content(页面内容)。数据通过维基百科API获取,内容为原始页面内容,完整保留了页面的全部信息。尽管大部分内容涉及真实人物,但也有部分条目描述虚构角色或非人类实体。
数据用途概述:
该数据集适用于多种场景,包括人物信息提取、文本挖掘、自然语言处理模型训练、知识图谱构建等。研究者可利用此数据进行人物特征分析、实体识别、情感分析等任务;开发者可将其用于构建人物信息检索系统或推荐系统;教育机构可将其用于教学和培训,帮助学生理解维基百科内容的结构和应用。此外,数据集也支持跨领域研究,例如将人物内容与图像数据结合,探索人物描述与视觉特征之间的关联。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 219.66 MiB
最后更新 2025年6月1日
创建于 2025年6月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。