在线新闻流行度预测数据集2015

在线新闻流行度预测数据集2015 数据来源:互联网公开数据 标签:在线新闻,流行度预测,机器学习,分类模型,新闻分析,社交媒体,新闻特征

数据概述: 本数据集收录了2015年初在Mashable网站上发布的39797篇文章的相关统计数据,旨在用于预测新闻文章的流行度。数据集包含了文章的URL、发布日期、内容特征、关键字、媒体类型、社交互动数据等61个属性,为新闻流行度的研究和预测提供了丰富的信息基础。

数据用途概述: 该数据集适用于在线新闻内容分析、社交媒体趋势研究、机器学习模型评估等多个场景。研究人员可以利用此数据集进行特征工程和模型训练,以预测新闻文章的流行程度;媒体机构可以借助数据优化内容策略;分析师可基于数据评估新闻传播效果。此外,数据集也适合用于教育培训,帮助学习者掌握新闻分析和预测的方法。

举例: 数据集中包含一篇于2012年发布的科技类文章,其标题包含10个单词,内容由400个单词组成,其中包含15个非停用词和10个独立非停用词。文章中包含3个外部链接和2个视频,平均词长为5个字符,引用了其他Mashable文章的平均分享数为150次。该文章在科学与技术类别中得分最高,整体主观性评分为0.5,正面词频比为0.4,最终分享数为1200次,根据预设的阈值被分类为“不流行”。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 15, 2025, 10:55 (UTC)
创建于 四月 15, 2025, 10:55 (UTC)