Redditr-开发啧社区帖子原始数据集
数据来源:互联网公开数据
标签:Reddit,印度开发者,社区讨论,数据挖掘,机器学习,用户行为分析,情感分析,话题建模
数据概述:
本数据集包含r/developersindia subreddit自2023年7月8日以来所有帖子的详细信息。数据集涵盖了帖子的基本信息、作者信息、投票情况、内容类别等多种维度,为研究该社区的讨论内容和用户行为提供了全面的数据支持。
数据用途概述:
该数据集适用于多种数据分析和机器学习场景,包括但不限于:
1. 对r/developersindia社区帖子进行情感分析,了解社区内讨论的情感倾向。
2. 通过主题建模识别社区内常见的讨论话题,发现热门和新兴的主题。
3. 分析用户行为,如帖子发布频率、用户参与度等,以了解用户互动模式。
4. 探索帖子和评论中的趋势和模式,发现数据背后的潜在规律。
5. 研究投票行为(如点赞和点踩)以及帖子转发对社区讨论的影响。
数据集字段定义:
- approved_at_utc: 帖子审批时间戳(UTC)。
- subreddit: 帖子发布的subreddit名称。
- selftext: 帖子的文本内容(如果是自帖子)。
- author_fullname: 帖子作者的唯一标识符。
- saved: 表示帖子是否被用户保存。
- mod_reason_title: 帖子的审核原因标题。
- gilded: 帖子获得的奖章或加冕数量。
- clicked: 表示帖子是否被点击。
- title: 帖子的标题。
- link_flair_richtext: 帖子链接 flair 的富文本。
- subreddit_name_prefixed: 带前缀的 subreddit 名称(例如 "r/AskReddit")。
- hidden: 表示帖子是否被隐藏。
- pwls: 帖子的“当评分低于时发布”阈值。
- link_flair_css_class: 帖子链接 flair 的 CSS 类。
- downs: 帖子收到的负票数量。
- thumbnail_height: 帖子缩略图的高度。
- top_awarded_type: 帖子获得的顶级奖章类型。
- hide_score: 表示帖子的评分是否被隐藏。
- media_metadata: 帖子中媒体内容的元数据。
- name: 帖子的唯一标识符。
- quarantine: 表示帖子是否被隔离。
- link_flair_text_color: 链接 flair 文本的颜色。
- upvote_ratio: 帖子的点赞与总投票的比例。
- author_flair_background_color: 作者 flair 的背景颜色。
- ups: 帖子收到的点赞数量。
- total_awards_received: 帖子获得的奖章或加冕总数。
- media_embed: 帖子中嵌入的媒体内容。
- thumbnail_width: 帖子缩略图的宽度。
- author_flair_template_id: 作者 flair 的模板 ID。
- is_original_content: 表示帖子是否为原创内容。
- user_reports: 用户对帖子的举报。
- secure_media: 帖子中的安全媒体内容。
- is_reddit_media_domain: 表示帖子是否托管在 Reddit 的媒体域上。
- is_meta: 表示帖子是否为元内容。
- category: 帖子的类别。
- secure_media_embed: 嵌入的安全媒体内容。
- link_flair_text: 链接 flair 的文本。
- can_mod_post: 表示帖子是否可以被版主审核。
- score: 帖子的评分(点赞减去负票)。
- approved_by: 批准帖子的用户名。
- is_created_from_ads_ui: 表示帖子是否通过广告界面创建。
- author_premium: 表示作者是否拥有高级账号。
- thumbnail: 帖子缩略图的 URL。
- edited: 表示帖子是否被编辑。
- author_flair_css_class: 作者 flair 的 CSS 类。
- author_flair_richtext: 作者 flair 的富文本。
- gildings: 帖子收到的奖章(加冕)信息。
- post_hint: 帖子内容类型的提示。
- content_categories: 帖子内容的类别。
- is_self: 表示帖子是否为自帖子。
- subreddit_type: subreddit 的类型。
- created: 帖子的创建时间戳。
- link_flair_type: 链接 flair 的类型。
- wls: 白名单状态。
- removed_by_category: 帖子移除原因的类别。
- banned_by: 禁止帖子的用户名。
- author_flair_type: 作者 flair 的类型。
- domain: 帖子 URL 的域名。
- allow_live_comments: 表示帖子是否允许实时评论。
- selftext_html: selftext 内容的 HTML 表示。
- likes: 表示帖子是否被用户点赞。
- suggested_sort: 建议的评论排序方式。
- banned_at_utc: 帖子被禁止的时间戳(UTC)。
- view_count: 帖子的浏览次数。
- archived: 表示帖子是否被归档。
- no_follow: 表示帖子是否被标记为“不跟随”。
- is_crosspostable: 表示帖子是否可以被交叉发布。
- pinned: 表示帖子是否被置顶。
- over_18: 表示帖子是否被标记为“18 岁以上”。
- preview: 帖子内容的预览信息。
- all_awardings: 帖子收到的所有奖章/加冕信息。
- awarders: 给帖子送奖的用户。
- media_only: 表示帖子是否仅包含媒体内容。
- link_flair_template_id: 链接 flair 的模板 ID。
- can_gild: 表示帖子是否可以被加冕。
- spoiler: 表示帖子是否被标记为剧透。
- locked: 表示帖子是否被锁定。
- author_flair_text: 作者 flair 的文本。
- treatment_tags: 与帖子处理方式相关的标签。
- visited: 表示用户是否访问过帖子。
- removed_by: 移除帖子的用户名。
- mod_note: 版主对帖子的备注。
- distinguished: 表示帖子是否被区分(例如,被版主区分)。
- subreddit_id: subreddit 的唯一标识符。
- author_is_blocked: 表示作者是否被阻止。
- mod_reason_by: 提供移除原因的版主用户名。
- num_reports: 对帖子的举报数量。
- removal_reason: 移除帖子的原因。
- link_flair_background_color: 链接 flair 的背景颜色。
- id: 帖子的唯一标识符。
- is_robot_indexable: 表示帖子是否可被搜索引擎索引。
- report_reasons: 提供举报帖子的原因。
- author: 帖子作者的用户名。
- discussion_type: 与帖子相关的讨论类型。
- num_comments: 帖子的评论数量。
- send_replies: 表示是否发送对帖子的回复。
- whitelist_status: 帖子的白名单状态。
- contest_mode: 表示帖子是否处于竞赛模式。
- mod_reports: 版主对帖子的举报。
- author_patreon_flair: 表示作者是否具有 Patreon flair。
- author_flair_text_color: 作者 flair 文本的颜色。
- permalink: 帖子的永久链接 URL。
- parent_whitelist_status: 父帖子的白名单状态(如果适用)。
- stickied: 表示帖子是否被置顶。
- url: 帖子关联的 URL。
- subreddit_subscribers: subreddit 的订阅者数量。
- created_utc: 帖子创建时间戳(UTC)。
- num_crossposts: 帖子被交叉发布的次数。
- media: 帖子中的媒体内容。
- is_video: 表示帖子是否包含视频内容。
- url_overridden_by_dest: 覆盖的 URL 目标(如果适用)。
- gallery_data: 帖子画廊的数据。
- is_gallery: 表示帖子是否为画廊。
- author_cakeday: 表示是否为作者的“生日”。