Reddit社区关系网络数据集

Reddit社区关系网络数据集 数据来源:互联网公开数据 标签:Reddit, 社交媒体, 社区, 链接, 网络分析, 数据挖掘 数据概述: 本数据集构建了Reddit社区之间的链接关系图谱,旨在揭示Reddit社区之间的相互引用关系。 数据集基于Reddit公开数据,包含了Reddit上所有子版块(Subreddit)的信息以及它们之间的链接关系。

数据集包含两类主要信息:

子版块信息: name (str): 子版块的名称,由2到21个字符组成,仅包含小写字母、数字和下划线。 type (str): 子版块的类型,包括: public: 标准类型。 banned: 被Reddit管理员封禁的子版块。 restricted: 对发帖者有一定限制的子版块。 private: 需要邀请才能加入的私密子版块。 archived: 被版块所有者归档的子版块。 premium: 需要Reddit高级会员才能加入的子版块。 user: 用户的个人子版块。 employees: 仅供Reddit员工使用的子版块。 title (str): 子版块的标题。 description (str): 子版块的简短描述。 subscribers (int?): 子版块当前的订阅人数(可选,可能为空)。 nsfw (bool?): 是否被标记为不适合工作(NSFW)。 quarantined (bool?): 是否被隔离。 color (str): 子版块的主色调。 img_banner (str?): 横幅图片的URL地址(可选,可能为空)。 img_icon (str?): 图标图片的URL地址(可选,可能为空)。 created_at (datetime): 子版块创建的UTC时间戳。 updated_at (datetime): 子版块信息最后更新的UTC时间戳。

链接信息: source (str): 链接来源的子版块名称。 target (str): 被链接的子版块名称。 type (str): 链接的类型,表示链接在哪个位置被发现: description: 在子版块的描述中发现的链接。 sidebar: 在侧边栏中发现的链接。 topbar: 在顶部导航栏中发现的链接。 wiki: 在子版块的维基页面中发现的链接。 updated_at (datetime): 链接信息最后更新的UTC时间戳。

子版块统计信息: 总数:127800 public: 59227 banned: 31473 restricted: 14601 public [nsfw]: 14244 private: 5139 restricted [nsfw]: 3014 public [quarantined]: 29 restricted [quarantined]: 21 archived: 17 premium: 12 public [nsfw] [quarantined]: 11 user [nsfw]: 6 user: 4 restricted [nsfw] [quarantined]: 1 employees: 1

链接统计信息: 总数:349744 wiki: 214206 sidebar: 123650 topbar: 7291 description: 4597

数据用途概述: 该数据集可用于构建Reddit社区的网络图谱,进行社区之间的关系分析,例如: 社区关联性分析:探索不同社区之间的相互联系,发现社区间的潜在影响和信息传播路径。 社区结构分析:分析Reddit社区的网络结构,识别核心社区、桥梁社区等关键节点。 主题发现与推荐:基于社区链接关系,进行主题发现和社区推荐。 用户行为分析:结合用户行为数据,分析用户在不同社区之间的行为模式。 社交网络研究:为社交网络分析、信息传播、舆情分析等研究提供数据基础。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 17, 2025, 13:28 (UTC)
创建于 四月 17, 2025, 13:27 (UTC)