Buzzfeed2020年1月至4月文章内容数据集-promptcloud
数据来源:互联网公开数据
标签:Buzzfeed,文章,内容抓取,数据集,2020年,新闻,社交媒体,文章分析
数据概述:
本数据集由PromptCloud(https://www.promptcloud.com/)和DataStock(https://datastock.shop/)的内部团队创建,包含约5000个样本。数据集涵盖了Buzzfeed.com网站2020年1月1日至2020年4月30日期间发表的文章。数据集共有14831条记录,以CSV文件格式提供。数据集可从DataStock的官方网站下载(https://app.datastock.shop/?site_name=Articles_From_BuzzFeed_2020)。访问DataStock网站还可享受所有数据集30%的折扣优惠。
数据集包含以下字段:
- Uniq Id:唯一标识符
- Crawl Timestamp:抓取时间戳
- Title Headline:文章标题
- Short Description Sub Headline:简短描述和副标题
- Content Body:文章内容主体
- Author:作者
- Date And Time Of Posting:文章发布时间
- Image Urls:图片链接
数据用途概述:
该数据集适用于新闻分析、社交媒体研究、内容抓取示例、文本挖掘等多种场景。研究人员可以利用此数据集进行文章内容分析、作者研究、时间序列分析等;媒体机构可以借助数据了解Buzzfeed的内容生态系统;教育者可以将其用于数据科学和新闻学的教学;开发者可以利用数据集进行内容抓取和数据处理技术的练习。数据集提供了丰富的文章内容和元数据,具有较高的实用价值。