Reddit社区关系网络数据集
数据来源:互联网公开数据
标签:Reddit, 社交媒体, 社区, 链接, 网络分析, 数据挖掘
数据概述:
本数据集构建了Reddit社区之间的链接关系图谱,旨在揭示Reddit社区之间的相互引用关系。 数据集基于Reddit公开数据,包含了Reddit上所有子版块(Subreddit)的信息以及它们之间的链接关系。
数据集包含两类主要信息:
子版块信息:
name (str): 子版块的名称,由2到21个字符组成,仅包含小写字母、数字和下划线。
type (str): 子版块的类型,包括:
public: 标准类型。
banned: 被Reddit管理员封禁的子版块。
restricted: 对发帖者有一定限制的子版块。
private: 需要邀请才能加入的私密子版块。
archived: 被版块所有者归档的子版块。
premium: 需要Reddit高级会员才能加入的子版块。
user: 用户的个人子版块。
employees: 仅供Reddit员工使用的子版块。
title (str): 子版块的标题。
description (str): 子版块的简短描述。
subscribers (int?): 子版块当前的订阅人数(可选,可能为空)。
nsfw (bool?): 是否被标记为不适合工作(NSFW)。
quarantined (bool?): 是否被隔离。
color (str): 子版块的主色调。
img_banner (str?): 横幅图片的URL地址(可选,可能为空)。
img_icon (str?): 图标图片的URL地址(可选,可能为空)。
created_at (datetime): 子版块创建的UTC时间戳。
updated_at (datetime): 子版块信息最后更新的UTC时间戳。
链接信息:
source (str): 链接来源的子版块名称。
target (str): 被链接的子版块名称。
type (str): 链接的类型,表示链接在哪个位置被发现:
description: 在子版块的描述中发现的链接。
sidebar: 在侧边栏中发现的链接。
topbar: 在顶部导航栏中发现的链接。
wiki: 在子版块的维基页面中发现的链接。
updated_at (datetime): 链接信息最后更新的UTC时间戳。
子版块统计信息:
总数:127800
public: 59227
banned: 31473
restricted: 14601
public [nsfw]: 14244
private: 5139
restricted [nsfw]: 3014
public [quarantined]: 29
restricted [quarantined]: 21
archived: 17
premium: 12
public [nsfw] [quarantined]: 11
user [nsfw]: 6
user: 4
restricted [nsfw] [quarantined]: 1
employees: 1
链接统计信息:
总数:349744
wiki: 214206
sidebar: 123650
topbar: 7291
description: 4597
数据用途概述:
该数据集可用于构建Reddit社区的网络图谱,进行社区之间的关系分析,例如:
社区关联性分析:探索不同社区之间的相互联系,发现社区间的潜在影响和信息传播路径。
社区结构分析:分析Reddit社区的网络结构,识别核心社区、桥梁社区等关键节点。
主题发现与推荐:基于社区链接关系,进行主题发现和社区推荐。
用户行为分析:结合用户行为数据,分析用户在不同社区之间的行为模式。
社交网络研究:为社交网络分析、信息传播、舆情分析等研究提供数据基础。