全球多国新闻文章分类数据集2023-2024-kiranbudati

全球多国新闻文章分类数据集2023-2024-kiranbudati 数据来源:互联网公开数据 标签:新闻文章,分类,多国,媒体,数据集,新闻源,分类任务,文本分析

数据概述: 本数据集由多个免费新闻API整合而成,包含超过90,000篇文章,涵盖了来自26个国家的600多个新闻来源。文章内容涉及超过16个不同的分类,包括但不限于政治、经济、科技、文化、体育等。数据集中的70%文章已被标注为新闻,其余30%的文章需要进行正确分类。

数据用途概述: 该数据集适用于新闻分类任务、自然语言处理研究、媒体分析、信息检索等多种应用场景。研究人员可以利用此数据集训练和评估新闻分类模型,提高机器学习算法在文本分类任务中的性能。此外,数据集也适用于新闻机构的新闻内容管理、自动化新闻推荐系统开发以及学术研究中的文本挖掘和分析。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 22, 2025, 09:40 (UTC)
创建于 四月 22, 2025, 09:40 (UTC)