路透社27000新闻分类数据集

该数据集为路透社新闻分类语料库，原始包含从路透社网站下载的27000篇随机新闻文章，覆盖健康、艺术、政治等8个类别。经去重处理后得到23863篇文档，随机分为14356篇训练集和9507篇测试集，存储标题、正文及所属类别信息。

文件名称: Reuters27000/reuters_27000.zip
文件格式: ZIP压缩包
内容说明: 压缩包内包含路透社新闻分类数据集的完整内容，原始数据为HTML网页格式，提取字段包括新闻标题、正文及所属类别（健康、艺术、政治、体育、科学、技术、经济、商业）。

路透社网站

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	79.06 MiB
最后更新	2025年11月26日
创建于	2025年11月26日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。