多网站分类新闻文章数据集-2023-jamessteve

多网站分类新闻文章数据集-2023-jamessteve 数据来源:互联网公开数据 标签:新闻,分类,数据集,BBC,The Daily Mail,The Independent,Wired,CNN,商业,政治,健康,家庭教育,科学环境,技术,娱乐艺术,体育,旅行,食品饮料

数据概述: 本数据集通过整合多家知名新闻网站(包括BBC、The Daily Mail、The Independent、Wired和CNN)的RSS源数据生成。数据集中的每篇文章根据RSS源的分类标签被自动归类到相应的新闻类别中。这些分类包括:商业、政治、健康、家庭与教育、科学与环境、技术、娱乐与艺术、体育、旅行和食品与饮料。

数据集中的每篇文章包含以下字段: - 标题:新闻标题 - 链接:原文链接 - 发布时间:文章发布时间 - 内容摘要:文章的主要内容摘要 - 类别:文章所属的新闻类别

数据采集的具体方法和工具可以在相关GitHub项目中找到详细说明。

数据用途概述: 该数据集适用于新闻分析、主题研究、信息检索和自然语言处理等多种应用场景。研究人员可以利用该数据集进行新闻趋势分析、主题分类模型训练、情感分析和其他文本挖掘任务。此外,该数据集也适合用于新闻学教育、数据分析教学和项目开发。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 23, 2025, 09:15 (UTC)
创建于 四月 23, 2025, 09:14 (UTC)