-
CONTRAST_IT_Based_西班牙语报纸文章语料库数据
2026年1月28日 30 149 81
数据集概述 本数据集是CONTRAST-IT多语言语料库的西班牙语部分,包含2011-2012年来自西班牙《国家报》(elpais.com)和《世界报》(elmundo.es)的476篇完整新闻文章,总字数约30万字,文本具有当代西班牙语报纸语言代表性,用于构建对比语言学研究用的语料库。 文件详解 文件组:CONTRAST-IT西班牙语新闻文章集...
-
dsfsi_Based非洲语言新闻语料库2022
2026年2月1日 30 162 97
数据集概述 本数据集为2022年的isiZulu新闻(含文章及标题)与Siswati新闻(仅标题)语料库,包含相关非洲语言的新闻文本资源,支持非洲语言的自然语言处理研究,数据集以单个压缩文件形式呈现。 文件详解 文件名称:dsfsi/za-isizulu-siswati-news-2022-v0.9.5.zip 文件格式:ZIP...
-
African_News_Corpus_非洲19种语言新闻语料数据
2026年1月27日 30 161 102
数据集概述 本数据集为非洲19种语言的单语种新闻语料库,来源包括VOA、BBC、Isolezwe等平台及项目。数据由不同来源整合而成,涉及多种非洲本土语言,总计包含20个文件,均为压缩格式,无目录层级结构。 文件详解 压缩文件包...
-
NewsSR_Based_塞尔维亚新冠疫情早期新闻语料库_多格式版
2026年1月27日 30 11 5
数据集概述 本数据集为塞尔维亚主要日报及新闻门户网站在新冠疫情早期(2020年3月至9月)发布的疫情相关新闻文章语料库,含纯文本版及带完整元数据的XML版,还配套有公民元语言评论语料库Covid-NEWS-Comm-SR,另有斯洛文尼亚和克罗地亚的平行版本。 文件详解 压缩文件1: 文件名称:SR xml.zip 文件格式:ZIP...
-
TuReV_Corpus_France_24突尼斯革命在线新闻语料库
2026年1月26日 30 179 21
数据集概述 本数据集为TuReV语料库,包含从France 24网站提取的突尼斯革命相关在线新闻内容,是研究该历史事件媒体报道的结构化文本资源。数据集仅含一个文件,无目录层级或数据拆分,便于直接使用。 文件详解 文件名称:corpus TuReV.docx 文件格式:DOCX 字段映射介绍:包含从France...
-
TeCla加泰罗尼亚语文本分类数据集
2025年12月20日 30 192 174
数据集概述 本数据集为用于主题多分类文本分类任务的加泰罗尼亚语新闻语料库(TeCla 2.0),包含十一万三千三百七十六篇文章,采用粗粒度(4类)和细粒度(共53类)的层级分类结构,每类粗粒度对应若干细粒度类别。 文件详解 文件名称: tecla_v2.zip 文件格式: ZIP压缩包 内容说明:...
-
Patriani_Silva_2025气候大会COP活动报道新闻语料库
2025年12月16日 30 150 43
数据集概述 本数据集为Patriani和Silva(2025)研究工作中分析的新闻语料库,聚焦《环球报》和UOL对气候大会COP活动的报道,用于探讨叙事与气候正义的关联。 文件详解 文件名称:PATRIANI; SILVA, 2025 - CORPUS DE NOTÍCIAS.pdf 文件格式:PDF...
-
新闻语料库训练集NFCorpus相关与不相关文档数据集-manupande21111997
2025年5月28日 30 41 7
新闻语料库训练集NFCorpus相关与不相关文档数据集-manupande21111997 数据来源:互联网公开数据 标签:新闻语料库,文本分类,信息检索,数据集,自然语言处理,机器学习,文本分析,相关性判断 数据概述: 该数据集包含来自新闻语料库(NF Corpus)的训练数据,记录了新闻文章及其与特定查询词的相关性判断。主要特征如下:...
-
阿拉伯语新闻文本摘要数据集ArabicNewsTextSummarization-ynawal
2025年5月28日 30 131 57
阿拉伯语新闻文本摘要数据集ArabicNewsTextSummarization-ynawal 数据来源:互联网公开数据 标签:文本摘要, 阿拉伯语, 自然语言处理, 机器翻译, 文本分析, 新闻语料库, 深度学习, 语料库 数据概述: 该数据集包含来自阿拉伯语新闻文章的文本内容及其对应的摘要。主要特征如下:...
-
阿拉伯语新闻摘要数据集ArabicNewsSummarizationDataset-fadyelkbeer
2025年5月18日 30 31 15
阿拉伯语新闻摘要数据集ArabicNewsSummarizationDataset-fadyelkbeer 数据来源:互联网公开数据 标签:新闻摘要, 阿拉伯语, 自然语言处理, 文本摘要, 机器翻译, 新闻语料库, 文本分析, 语言模型 数据概述: 该数据集包含来自BBC新闻的阿拉伯语新闻文章及其摘要,旨在用于文本摘要任务。主要特征如下:...
-
政治新闻文本分类数据集PoliticalNewsTextClassificationDataset-manjunathgb
2025年5月19日 30 41 10
政治新闻文本分类数据集PoliticalNewsTextClassificationDataset-manjunathgb 数据来源:互联网公开数据 标签:新闻文本, 文本分类, 政治新闻, 机器学习, 自然语言处理, 情感分析, 新闻语料库, 数据标注 数据概述:...
-
新闻文本分类数据集NewsTextClassificationDataset-lucky052
2025年5月16日 30 122 89
新闻文本分类数据集NewsTextClassificationDataset-lucky052 数据来源:互联网公开数据 标签:新闻文本, 文本分类, 自然语言处理, 多分类, 新闻语料库, 机器学习, 文本分析, 舆情分析 数据概述: 该数据集包含来自互联网的新闻文章,记录了不同类别的新闻文本内容。主要特征如下:...
-
新闻语料库词频统计数据集-2023-pduvvuri0308
2025年4月23日 30 61 32
新闻语料库词频统计数据集-2023-pduvvuri0308 数据来源:互联网公开数据 标签:词频统计,新闻语料库,文本分析,自然语言处理,NLP,数据集,文本挖掘 数据概述:...



