路透社27000新闻分类数据集

数据集概述

该数据集为路透社新闻分类语料库,原始包含从路透社网站下载的27000篇随机新闻文章,覆盖健康、艺术、政治等8个类别。经去重处理后得到23863篇文档,随机分为14356篇训练集和9507篇测试集,存储标题、正文及所属类别信息。

文件详解

  • 文件名称: Reuters27000/reuters_27000.zip
  • 文件格式: ZIP压缩包
  • 内容说明: 压缩包内包含路透社新闻分类数据集的完整内容,原始数据为HTML网页格式,提取字段包括新闻标题、正文及所属类别(健康、艺术、政治、体育、科学、技术、经济、商业)。

数据来源

路透社网站

适用场景

  • 文本分类模型训练: 用于训练和测试新闻文本的多类别分类算法
  • 自然语言处理研究: 可作为语料库支持文本预处理、特征提取等NLP基础研究
  • 新闻主题分析: 探索不同类别新闻的主题分布及内容特征
  • 机器学习基准测试: 为文本分类任务提供标准化测试数据集
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 79.06 MiB
最后更新 2025年11月26日
创建于 2025年11月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。