维基百科文章网络数据集2018

维基百科文章网络数据集2018 数据来源:互联网公开数据 标签:维基百科,文章网络,网络分析,机器学习,回归分析,链接预测,社区检测,网络可视化 数据概述: 本数据集源自2018年12月的英文维基百科,包括了关于特定主题(变色龙、鳄鱼和松鼠)的文章网络数据。数据集中的节点代表维基百科文章,边表示文章之间的双向链接。边的CSV文件包含节点之间的链接信息,节点从0开始编号。特征的JSON文件包含每个文章的特征,每个键是一个页面ID,节点特征以列表形式给出。列表中的特征表示该特征对应的名词出现在维基百科文章的文本中。目标CSV文件包含每个页面的节点标识符及其从2017年10月到2018年11月的平均月度流量。每个文章网络数据还列出了节点和边的数量及其他描述性统计信息。 数据用途概述: 该数据集适用于回归分析、链接预测、社区检测和网络可视化等多种场景。研究者可以利用此数据集进行多尺度属性节点嵌入研究;机器学习工程师可以用于训练回归模型和链接预测模型;社区检测算法可以识别网络中的社区结构;网络可视化工具可以帮助理解文章之间的关系。此外,该数据集还适合用于教育培训,帮助学习者掌握网络分析的基本方法和技术。 举例: 数据集中包含了三个主题的文章网络数据,分别是变色龙、鳄鱼和松鼠。变色龙网络包含2,277个节点和31,421条边,密度为0.012,传递性为0.314;鳄鱼网络包含11,631个节点和170,918条边,密度为0.003,传递性为0.026;松鼠网络包含5,201个节点和198,493条边,密度为0.015,传递性为0.348。研究者可以基于这些数据集进行多尺度属性节点嵌入研究,如Benedek Rozemberczki等人在2019年的研究中所使用的。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 14, 2025, 22:46 (UTC)
创建于 四月 14, 2025, 22:46 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。