找到155个数据集

标签: 新闻文章

过滤结果
  • CONTRAST_IT_Based_西班牙语报纸文章语料库数据

    2026年1月28日 30 101 26

    数据集概述 本数据集是CONTRAST-IT多语言语料库的西班牙语部分,包含2011-2012年来自西班牙《国家报》(elpais.com)和《世界报》(elmundo.es)的476篇完整新闻文章,总字数约30万字,文本具有当代西班牙语报纸语言代表性,用于构建对比语言学研究用的语料库。 文件详解 文件组:CONTRAST-IT西班牙语新闻文章集...
    packageimg
  • dsfsi_Based非洲语言新闻语料库2022

    2026年2月1日 30 144 122

    数据集概述 本数据集为2022年的isiZulu新闻(含文章及标题)与Siswati新闻(仅标题)语料库,包含相关非洲语言的新闻文本资源,支持非洲语言的自然语言处理研究,数据集以单个压缩文件形式呈现。 文件详解 文件名称:dsfsi/za-isizulu-siswati-news-2022-v0.9.5.zip 文件格式:ZIP...
    packageimg
  • BES_Based_新闻腐败叙事知识图谱构建分析数据

    2026年1月31日 30 140 86

    数据集概述 本数据集围绕BES案例,对新闻文章中腐败故事的叙事进行分析,用于构建知识图谱。包含2个文件,涵盖DCTAP格式数据和XML编码文件,为研究新闻叙事与知识图谱构建提供基础数据支持。 文件详解 DCTAP.xlsx 文件格式:XLSX 字段映射介绍:包含DCTAP(DC Tabular Application...
    packageimg
  • 罕见病MEDLINE事件注册库_2023年人工标注文献与分类评估数据

    2026年1月26日 30 73 56

    数据集概述 本数据集为2023年生成,基于2022年从MEDLINE(科学文献)和Event Registry(新闻)收集的数据,支持罕见病挖掘项目。包含16种罕见病的人工标注文献,涉及科学论文和新闻文章的标注及分类器评估数据,用于相关研究论文的开发。 文件详解 JSON文件 文件名称:preproc2-input-...
    packageimg
  • TeleSUR_Based_2023_2024新闻文章来源与推文分析数据

    2026年1月21日 30 61 12

    数据集概述 本数据集包含2023年1月至2024年12月期间TeleSUR西班牙语和英语网站的新闻文章存档,由民主安全联盟于2025年1月通过公开WordPress端点抓取。涵盖西班牙语文章14,758篇、英语文章6,722篇,提取了每篇文章的来源、作者及嵌入推文信息,用于分析TeleSUR的外部影响因素。 文件详解...
    packageimg
  • NewsData_io_Source_2024技术创新与趋势新闻数据_压缩包

    2026年1月20日 30 167 150

    数据集概述 本数据集为2024年技术创新与趋势相关的新闻文章集合,涵盖人工智能、区块链、量子计算、网络安全及新兴技术等领域,提供科技行业最新发展、市场趋势和颠覆性创新的信息,助力理解技术格局演变。 文件详解 压缩文件 文件名称:Technology Innovation & Trends 2024.zip 文件格式:ZIP...
    packageimg
  • CONTRAST_IT_Based意大利语新闻语料库数据集2011_2012

    2026年1月20日 30 164 111

    数据集概述 本数据集为CONTRAST-IT多语言语料库的意大利语部分,包含2011-2012年从意大利三家电子日报(repubblica.it、lastampa.it、corriere.it)采集的531篇真实新闻文章,总计约三十万字,覆盖政治、体育、科技等多个主题,用于多语言对比语言学研究。 文件详解 意大利语新闻文章文件...
    packageimg
  • CONTRAST_IT_Corpus_French_News_Articles_2011_2012

    2026年1月7日 30 13 8

    数据集概述 本数据集是CONTRAST-IT多语言语料库的法语部分,包含2011-2012年来自法国《世界报》和《费加罗报》的520篇真实新闻文章,总计约30万字。文章覆盖经济、体育、国际新闻等多个主题,是构建对比语言学研究语料库的基础数据。 文件详解...
    packageimg
  • Enabling_Roll_up_and_Drill_down_Operations_新闻探索功能支持数据集

    2025年12月29日 30 31 18

    数据集概述 本数据集包含二十万篇新闻文章,通过命名实体链接技术将新闻实体与DBPedia关联,支持新闻探索中的钻取与汇总操作。数据集共包含四个文件,无目录结构,主要文件类型为JSON和ZIP格式,未划分训练/测试集或数据/标签集。 文件详解 relevance_evaluation_response.json 文件格式:JSON...
    packageimg
  • Cross_Domain_Propaganda_Detection_印度社交媒体CAA抗议活动宣传检测数据集

    2025年12月29日 30 106 30

    数据集概述 本数据集聚焦印度2019年CAA抗议活动相关的社交媒体内容,包含464篇新闻文章(按句子分类为宣传或非宣传)和597条手动标注18种宣传技术的推文,用于跨域宣传检测任务,为相关研究提供结构化标注数据。 文件详解 文件名称:Dataset.zip 文件格式:ZIP...
    packageimg
  • NewsUnravel媒体偏见检测数据集2023

    2025年12月21日 30 108 20

    数据集概述 该数据集通过NewsUnravel网站的用户反馈机制收集,包含新闻文章中机器生成偏见高亮句的读者反馈数据,含偏见句子二元标签、文章元数据及用户反馈记录,用于提升媒体偏见检测模型性能,是首个媒体偏见领域人在回路数据收集应用的成果。 文件详解 该数据集包含6个文件,具体说明如下: - NUDAdataset.csv:...
    packageimg
  • 印地语文本宣传数据集2023_Prop_HiT

    2025年12月21日 30 185 50

    数据集概述 本数据集是针对印地语文本的宣传检测数据集,包含来自三十二家印地语新闻网站的七百九十篇文章,采用人工标注方式标记十八种宣传技术。数据按训练集(五百五十篇)和测试集(二百四十篇)划分,为印地语宣传内容识别研究提供结构化标注数据。 文件详解 该数据集包含以下文件: - 压缩包文件: - Prop-HiT Dataset.zip:...
    packageimg
  • 印度时报新闻文章FinBERT评分数据集

    2025年12月19日 30 180 150

    数据集概述 本数据集包含从印度时报档案提取的新闻文章及其FinBERT评分结果,覆盖2017至2024年多个年份,以CSV、XLSX和PNG格式存储,为分析新闻文本的情感倾向提供结构化数据支持。 文件详解 CSV格式评分文件(共7个): 命名示例:score_TOI_2017.csv、score_TOI_2021.csv等...
    packageimg
  • Webis_Revenue_10_德国新闻营收声明标注数据集

    2025年12月11日 30 89 38

    数据集概述 该数据集包含2003至2009年德国29家新闻网站的1128篇新闻文章,由领域专家手动标注了2075条企业或市场营收声明,每条声明包含7个核心属性,为研究新闻文本中的营收信息提取提供标注数据支持。 文件详解 压缩数据文件:...
    packageimg
  • 西班牙数字媒体生物精炼厂报道话语分析数据集2019_2024

    2025年12月10日 30 1 0

    数据集概述 本数据集是针对西班牙数字媒体中生物精炼厂相关报道的话语分析研究完整资料包,涵盖2019年11月至2024年11月的三百五十篇文章,涉及八十八家生物精炼厂,包含编码数据库、SPSS分析文件、统计输出等多类资料,用于研究可再生能源技术的社会接受度。 文件详解 数据库文件: BBDD-Analisis-...
    packageimg
  • 美国鱼类和野生动物管理局新闻文章文档集

    2025年12月6日 30 153 82

    数据集概述 本数据集为美国鱼类和野生动物管理局(FWS)Servcat系统中的新闻文章文档归档,通过抓取该系统获取,包含与美国鱼类和野生动物资源管理相关的报告、备忘录等资料,以压缩文件形式存储。 文件详解 文件名称:Newsletter_Article.zip 文件格式:ZIP(.zip)...
    packageimg
  • 基于众包的新闻偏见分析与检测多维数据集

    2025年12月5日 30 41 23

    数据集概述 本数据集包含九千篇涉及乌克兰危机的新闻文章中的两千零五十七句内容,由众包工作者对新闻偏见本身及隐藏假设、主观性、表征倾向三个维度进行标注,总计四万四千五百四十七个标签,为新闻偏见的分析与检测研究提供多维标注数据支持。 文件详解 文件名称: all-data-as-json.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
    packageimg
  • CT_FAN多语言假新闻检测数据集2022

    2025年12月5日 30 100 12

    数据集概述 该数据集为多语言假新闻检测任务设计,包含2010-2022年英文和德文新闻文章,标注其真实性评级(假、部分假、真、其他)及主题领域,支持跨语言迁移学习研究,适用于构建多语言假新闻分类模型。 文件详解 文件名称:FakeNews_Task3_2022.zip 文件格式:ZIP压缩包 内部数据字段: ID:新闻文章唯一标识符...
    packageimg
  • 新闻摘要生成文章数据集

    2025年10月9日 30 116 103

    新闻摘要生成文章数据集_News_Article_Summarization_Dataset 数据来源:互联网公开数据 标签:文本摘要, 自然语言处理, 新闻文章, 机器翻译, 深度学习, 文本生成, 数据集, 摘要生成 数据概述: 该数据集包含来自新闻网站的文章及其对应的摘要,旨在用于训练和评估文本摘要模型。主要特征如下:...
    packageimg
  • 越南新闻文章内容分词与处理数据集

    2025年10月5日 30 190 17

    越南新闻文章内容分词与处理数据集_Vietnamese_News_Articles_Content_Segmentation_and_Processing 数据来源:互联网公开数据 标签:自然语言处理, 文本分析, 越南语, 分词, 新闻文章, 文本摘要, 信息抽取, 语言模型 数据概述:...
    packageimg