Reddit社区新闻帖子互动预测数据集-2017年6月-8月

Reddit社区新闻帖子互动预测数据集-2017年6月-8月 数据来源:互联网公开数据 标签:Reddit,社区,互动,新闻,预测,机器学习,文本分析,GDELT,大数据 数据概述: 本数据集是datancoffee在Google Big Data & Machine Learning博客上发布的系列文章“使用TensorFlow、GDELT和Cloud Dataflow预测Reddit社区互动”的配套数据集。该数据集包含了2017年6月至8月期间的Reddit新闻帖子数据,并结合了GDELT对帖子的分类结果以及Sirocco文本分析(观点和实体提取)的结果。数据来源于BigQuery的GDELT数据集和Reddit数据集。

数据用途概述: 该数据集可用于分析新闻内容、作者和发布域对Reddit用户选择Subreddit的影响,以及预测互动指标,如受欢迎程度得分和评论者数量。研究人员可以利用此数据集进行多标签分类,根据发布域和GDELT实体预测Reddit用户社区的兴趣;还可以开发异常检测模型,验证帖子是否符合已有的行为模式,或者构成新的趋势或潜在的异常。此外,还可以用于研究文章在Reddit上的受欢迎程度和社区参与度,以及发帖人及Subreddit的影响。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 173.09 MiB
最后更新 2025年4月19日
创建于 2025年4月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。