CONTRAST_IT_Based意大利语新闻语料库数据集2011_2012

数据集概述

本数据集为CONTRAST-IT多语言语料库的意大利语部分,包含2011-2012年从意大利三家电子日报(repubblica.it、lastampa.it、corriere.it)采集的531篇真实新闻文章,总计约三十万字,覆盖政治、体育、科技等多个主题,用于多语言对比语言学研究。

文件详解

  • 意大利语新闻文章文件
  • 文件名称:如Corpus_Repubblica_Tecnologia.docx、Corpus_La stampa_Sport.docx、Corpus_Corriere della Sera_Politica.docx等
  • 文件格式:DOCX(12个,占比百分之八十)、DOC(3个,占比百分之二十)
  • 字段映射介绍:包含三家意大利报纸不同主题的完整新闻文章文本,无明确字段划分,以原始文章内容为主

数据来源

瑞士国家科学基金会项目(Italian Constituent Order in a Contrastive Perspective、Italian Sentence Adverbs in a Contrastive Perspective)及论文De Cesare, A.-M. 2019. CONTRAST-IT e COMPARE-IT

适用场景

  • 意大利语语言学研究: 分析当代意大利报纸语言的构成、句法特征及词汇使用习惯
  • 多语言对比分析: 作为CONTRAST-IT多语言语料库的一部分,支持意大利语与法语、西班牙语等语言的对比研究
  • 自然语言处理模型训练: 为意大利语NLP任务(如文本分类、主题建模)提供真实新闻语料
  • 新闻语言演变研究: 探究2011-2012年意大利新闻媒体的语言风格及主题分布特征
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.99 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。