纽约时报文章内容分析精简版数据集-2007-2017

纽约时报文章内容分析精简版数据集-2007-2017

数据来源:互联网公开数据

标签:纽约时报,文章,新闻,文本分析,聚类,主题建模,情感分析

数据概述: 本数据集是大型纽约时报文章数据集的一个经过处理的精简子集,原始数据集包含超过210万篇文章。该精简版数据集经过精心挑选和平衡,旨在保持'section_name'(版块名称)、'type_of_material'(材料类型)和'news_desk'(新闻编辑部)等关键特征的平衡,使其更易于管理,更适合特定分析任务。

数据集来源于纽约时报文章数据集,涵盖了纽约时报发布的各种主题、类别和版块的文章。数据经过预处理和清洗,去除了包含大量空值的特征,并从关键词、标题等列中提取了相关信息。

该数据集在原始数据集的基础上,增加了新的特征,包括'title'(标题)、'kicker'(导语)、'organizations'(组织)、'people'(人物)、'subjects'(主题)、'glocations'(地理位置)和'author'(作者)。这些特征可能包含与文章内容、主题和贡献者相关的信息。

数据用途概述: 该数据集适用于各种数据分析任务,如聚类、主题建模、情感分析等。通过基于内容或其他特征对文章进行聚类,可以识别不同文章中的常见主题、话题或趋势。研究人员可以利用此数据集进行文本挖掘,了解纽约时报文章的内容和趋势,进行舆情分析,或用于自然语言处理相关的研究。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 六月 1, 2025, 07:04 (UTC)
创建于 六月 1, 2025, 07:03 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。