Reddit问答社区AskReddit帖子及评论数据集
数据来源:互联网公开数据
标签:Reddit, AskReddit, 问答, 社区, 帖子, 评论, 文本数据, 情感分析, 话题分析
数据概述:
本数据集收录了来自Reddit社区AskReddit子版块(r/AskReddit)的帖子和评论数据,AskReddit是Reddit上最大的社区之一,主要讨论各种随机话题的问答。该数据集包含了大量的英文文本数据,未经过滤处理。
数据来源于使用Python Reddit API Wrapper (praw) 从r/AskReddit获取的帖子和评论。
数据内容包括帖子和评论两部分。每个帖子和评论都包含以下字段:
- title:帖子标题(仅对帖子有效)
- score:帖子得分,基于互动(评论数量)等指标(仅对帖子有效)
- id:帖子或评论的唯一ID
- url:帖子链接(仅对帖子有效)
- commns_num:帖子的评论数量(仅对帖子有效)
- created:创建日期
- body:帖子或评论的文本内容
- timestamp:时间戳
数据用途概述:
该数据集可用于多种用途,包括但不限于:
- 情感分析:分析帖子和评论的情感倾向。
- 话题识别:识别和分析讨论的话题。
- 文本挖掘和自然语言处理研究。
- 社交媒体分析。
- 舆情监测。
- 教育和研究。