加泰罗尼亚政府网页爬取语料库2020

数据集概述

该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库,含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档,是加泰罗尼亚语文本语料库的子语料库。

文件详解

  • 文件名称: catalan_government_crawling.zip
  • 文件格式: ZIP (.zip)
  • 文件内容: 压缩包内包含加泰罗尼亚政府网页爬取的原始文本数据,文档以单换行分隔,未提供具体字段映射信息

适用场景

  • 计算语言学研究: 用于加泰罗尼亚语的语言模型训练、句法分析、语义理解等任务
  • 语料库语言学分析: 探究加泰罗尼亚政府网页文本的语言特征、词汇分布及语篇结构
  • 自然语言处理应用开发: 支持加泰罗尼亚语的文本分类、信息抽取等NLP工具构建
  • 语言资源建设: 补充和扩展加泰罗尼亚语的大规模语料库资源
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 66.6 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。