Medium数据科学文章统计分析数据集-2020-2021-evgenyparenchenkov

Medium数据科学文章统计分析数据集-2020-2021-evgenyparenchenkov 数据来源:互联网公开数据 标签:Medium,数据科学,文章分析,自然语言处理,文本挖掘,统计分析,时间序列,Kaggle

数据概述: 本数据集整合了2020年和2021年期间Medium平台上关于数据科学领域的文章数据。原始数据由Vinicius Lambert(Kaggle用户名:viniciuslambert)抓取,来源包括Medium及其他流行的数据科学文章平台。数据集包含文章的标题、副标题等文本信息,其中标题和副标题经过了停用词移除、词形还原和转换为小写字母的处理。此外,数据集还包含了从文本中提取的多种数值特征,例如:

作者发布新文章前,其收到的点赞数、评论数和阅读时长的总和、最大值、最小值、均值和标准差。 作者发布文章前,其发布过的同标签文章收到的点赞数、评论数和阅读时长的总和、最大值、最小值、均值和标准差。 预处理后的标题、副标题和作者名的单词长度。 预处理后的标题、副标题和作者名中的数字数量。 标题和副标题中,非NLTK英语词典收录的专业术语和技术词汇的数量。

数据来源于Kaggle平台,原始数据集链接如下: 2020年数据集:https://www.kaggle.com/viniciuslambert/medium-data-science-articles-dataset 2021年数据集:https://www.kaggle.com/viniciuslambert/medium-2021-data-science-articles-dataset

数据用途概述: 该数据集适用于多种数据科学研究和应用场景,包括但不限于:文章内容分析、作者影响力评估、文章发布策略研究、用户行为分析、自然语言处理实践等。研究人员可以利用此数据分析文章标题、副标题的特征与文章受欢迎程度之间的关系;可以评估不同作者的文章写作风格和影响力;可以探索文章标签与文章传播效果之间的关联;还可以用于训练和测试文本挖掘和自然语言处理模型,例如情感分析、主题建模等。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 22, 2025, 17:20 (UTC)
创建于 四月 22, 2025, 17:18 (UTC)