Buzzfeed2020年1月至4月文章内容数据集-promptcloud

Buzzfeed2020年1月至4月文章内容数据集-promptcloud 数据来源:互联网公开数据 标签:Buzzfeed,文章,内容抓取,数据集,2020年,新闻,社交媒体,文章分析

数据概述: 本数据集由PromptCloud(https://www.promptcloud.com/)和DataStock(https://datastock.shop/)的内部团队创建,包含约5000个样本。数据集涵盖了Buzzfeed.com网站2020年1月1日至2020年4月30日期间发表的文章。数据集共有14831条记录,以CSV文件格式提供。数据集可从DataStock的官方网站下载(https://app.datastock.shop/?site_name=Articles_From_BuzzFeed_2020)。访问DataStock网站还可享受所有数据集30%的折扣优惠。

数据集包含以下字段: - Uniq Id:唯一标识符 - Crawl Timestamp:抓取时间戳 - Title Headline:文章标题 - Short Description Sub Headline:简短描述和副标题 - Content Body:文章内容主体 - Author:作者 - Date And Time Of Posting:文章发布时间 - Image Urls:图片链接

数据用途概述: 该数据集适用于新闻分析、社交媒体研究、内容抓取示例、文本挖掘等多种场景。研究人员可以利用此数据集进行文章内容分析、作者研究、时间序列分析等;媒体机构可以借助数据了解Buzzfeed的内容生态系统;教育者可以将其用于数据科学和新闻学的教学;开发者可以利用数据集进行内容抓取和数据处理技术的练习。数据集提供了丰富的文章内容和元数据,具有较高的实用价值。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 21, 2025, 14:05 (UTC)
创建于 四月 21, 2025, 14:05 (UTC)