Redditr-开发啧社区帖子原始数据集

Redditr-开发啧社区帖子原始数据集 数据来源:互联网公开数据 标签:Reddit,印度开发者,社区讨论,数据挖掘,机器学习,用户行为分析,情感分析,话题建模 数据概述: 本数据集包含r/developersindia subreddit自2023年7月8日以来所有帖子的详细信息。数据集涵盖了帖子的基本信息、作者信息、投票情况、内容类别等多种维度,为研究该社区的讨论内容和用户行为提供了全面的数据支持。 数据用途概述: 该数据集适用于多种数据分析和机器学习场景,包括但不限于: 1. 对r/developersindia社区帖子进行情感分析,了解社区内讨论的情感倾向。 2. 通过主题建模识别社区内常见的讨论话题,发现热门和新兴的主题。 3. 分析用户行为,如帖子发布频率、用户参与度等,以了解用户互动模式。 4. 探索帖子和评论中的趋势和模式,发现数据背后的潜在规律。 5. 研究投票行为(如点赞和点踩)以及帖子转发对社区讨论的影响。 数据集字段定义: - approved_at_utc: 帖子审批时间戳(UTC)。 - subreddit: 帖子发布的subreddit名称。 - selftext: 帖子的文本内容(如果是自帖子)。 - author_fullname: 帖子作者的唯一标识符。 - saved: 表示帖子是否被用户保存。 - mod_reason_title: 帖子的审核原因标题。 - gilded: 帖子获得的奖章或加冕数量。 - clicked: 表示帖子是否被点击。 - title: 帖子的标题。 - link_flair_richtext: 帖子链接 flair 的富文本。 - subreddit_name_prefixed: 带前缀的 subreddit 名称(例如 "r/AskReddit")。 - hidden: 表示帖子是否被隐藏。 - pwls: 帖子的“当评分低于时发布”阈值。 - link_flair_css_class: 帖子链接 flair 的 CSS 类。 - downs: 帖子收到的负票数量。 - thumbnail_height: 帖子缩略图的高度。 - top_awarded_type: 帖子获得的顶级奖章类型。 - hide_score: 表示帖子的评分是否被隐藏。 - media_metadata: 帖子中媒体内容的元数据。 - name: 帖子的唯一标识符。 - quarantine: 表示帖子是否被隔离。 - link_flair_text_color: 链接 flair 文本的颜色。 - upvote_ratio: 帖子的点赞与总投票的比例。 - author_flair_background_color: 作者 flair 的背景颜色。 - ups: 帖子收到的点赞数量。 - total_awards_received: 帖子获得的奖章或加冕总数。 - media_embed: 帖子中嵌入的媒体内容。 - thumbnail_width: 帖子缩略图的宽度。 - author_flair_template_id: 作者 flair 的模板 ID。 - is_original_content: 表示帖子是否为原创内容。 - user_reports: 用户对帖子的举报。 - secure_media: 帖子中的安全媒体内容。 - is_reddit_media_domain: 表示帖子是否托管在 Reddit 的媒体域上。 - is_meta: 表示帖子是否为元内容。 - category: 帖子的类别。 - secure_media_embed: 嵌入的安全媒体内容。 - link_flair_text: 链接 flair 的文本。 - can_mod_post: 表示帖子是否可以被版主审核。 - score: 帖子的评分(点赞减去负票)。 - approved_by: 批准帖子的用户名。 - is_created_from_ads_ui: 表示帖子是否通过广告界面创建。 - author_premium: 表示作者是否拥有高级账号。 - thumbnail: 帖子缩略图的 URL。 - edited: 表示帖子是否被编辑。 - author_flair_css_class: 作者 flair 的 CSS 类。 - author_flair_richtext: 作者 flair 的富文本。 - gildings: 帖子收到的奖章(加冕)信息。 - post_hint: 帖子内容类型的提示。 - content_categories: 帖子内容的类别。 - is_self: 表示帖子是否为自帖子。 - subreddit_type: subreddit 的类型。 - created: 帖子的创建时间戳。 - link_flair_type: 链接 flair 的类型。 - wls: 白名单状态。 - removed_by_category: 帖子移除原因的类别。 - banned_by: 禁止帖子的用户名。 - author_flair_type: 作者 flair 的类型。 - domain: 帖子 URL 的域名。 - allow_live_comments: 表示帖子是否允许实时评论。 - selftext_html: selftext 内容的 HTML 表示。 - likes: 表示帖子是否被用户点赞。 - suggested_sort: 建议的评论排序方式。 - banned_at_utc: 帖子被禁止的时间戳(UTC)。 - view_count: 帖子的浏览次数。 - archived: 表示帖子是否被归档。 - no_follow: 表示帖子是否被标记为“不跟随”。 - is_crosspostable: 表示帖子是否可以被交叉发布。 - pinned: 表示帖子是否被置顶。 - over_18: 表示帖子是否被标记为“18 岁以上”。 - preview: 帖子内容的预览信息。 - all_awardings: 帖子收到的所有奖章/加冕信息。 - awarders: 给帖子送奖的用户。 - media_only: 表示帖子是否仅包含媒体内容。 - link_flair_template_id: 链接 flair 的模板 ID。 - can_gild: 表示帖子是否可以被加冕。 - spoiler: 表示帖子是否被标记为剧透。 - locked: 表示帖子是否被锁定。 - author_flair_text: 作者 flair 的文本。 - treatment_tags: 与帖子处理方式相关的标签。 - visited: 表示用户是否访问过帖子。 - removed_by: 移除帖子的用户名。 - mod_note: 版主对帖子的备注。 - distinguished: 表示帖子是否被区分(例如,被版主区分)。 - subreddit_id: subreddit 的唯一标识符。 - author_is_blocked: 表示作者是否被阻止。 - mod_reason_by: 提供移除原因的版主用户名。 - num_reports: 对帖子的举报数量。 - removal_reason: 移除帖子的原因。 - link_flair_background_color: 链接 flair 的背景颜色。 - id: 帖子的唯一标识符。 - is_robot_indexable: 表示帖子是否可被搜索引擎索引。 - report_reasons: 提供举报帖子的原因。 - author: 帖子作者的用户名。 - discussion_type: 与帖子相关的讨论类型。 - num_comments: 帖子的评论数量。 - send_replies: 表示是否发送对帖子的回复。 - whitelist_status: 帖子的白名单状态。 - contest_mode: 表示帖子是否处于竞赛模式。 - mod_reports: 版主对帖子的举报。 - author_patreon_flair: 表示作者是否具有 Patreon flair。 - author_flair_text_color: 作者 flair 文本的颜色。 - permalink: 帖子的永久链接 URL。 - parent_whitelist_status: 父帖子的白名单状态(如果适用)。 - stickied: 表示帖子是否被置顶。 - url: 帖子关联的 URL。 - subreddit_subscribers: subreddit 的订阅者数量。 - created_utc: 帖子创建时间戳(UTC)。 - num_crossposts: 帖子被交叉发布的次数。 - media: 帖子中的媒体内容。 - is_video: 表示帖子是否包含视频内容。 - url_overridden_by_dest: 覆盖的 URL 目标(如果适用)。 - gallery_data: 帖子画廊的数据。 - is_gallery: 表示帖子是否为画廊。 - author_cakeday: 表示是否为作者的“生日”。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.72 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。