Medium知名期刊2020年1月至8月文章数据集-shiyu22chen
数据来源:互联网公开数据
标签:Medium,文章数据,阅读时间,点赞数,评论数,数据科学,机器学习,自然语言处理
数据概述:
本数据集包含了2020年1月至8月期间在Medium上知名期刊发布的文章详情。所选取的期刊包括:The Startup、Mission.org、Personal Growth、HackerNoon.com、Towards Data Science、Startup Grind、The Economist、The Coinbase Blog、Better Humans 和 UX Collective。数据集通过随机选取2020年1月到8月之间的日期生成,因此某些期刊的文章可能会比其他期刊多。
数据集包含以下字段:
- id: 文章ID
- title: 文章标题
- title_vector: 文章标题的隐向量嵌入,由DPR模型生成
- link: 文章的链接/URL
- reading_time: 文章的阅读时间
- publication: 发布文章的期刊名称
- claps: 文章获得的点赞数
- responses: 文章收到的评论数
数据集采用CC0许可证,属于公共领域。
数据用途概述:
该数据集适用于自然语言处理、机器学习、数据科学等领域的研究和教育。研究人员可以利用此数据集进行开放域问答系统的训练和评估,如密集型篇章检索(Dense Passage Retrieval)。教育者可以借助该数据集进行文本分析、信息检索等相关课程的教学。此外,数据集也为想要了解Medium上文章发布和互动模式的读者提供了有价值的资源。