加泰罗尼亚政府网页爬取语料库2020

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

加泰罗尼亚政府网页爬取语料库2020

数据集概述

该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库，含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档，是加泰罗尼亚语文本语料库的子语料库。

文件详解

文件名称: catalan_government_crawling.zip
文件格式: ZIP (.zip)
文件内容: 压缩包内包含加泰罗尼亚政府网页爬取的原始文本数据，文档以单换行分隔，未提供具体字段映射信息

适用场景

计算语言学研究: 用于加泰罗尼亚语的语言模型训练、句法分析、语义理解等任务
语料库语言学分析: 探究加泰罗尼亚政府网页文本的语言特征、词汇分布及语篇结构
自然语言处理应用开发: 支持加泰罗尼亚语的文本分类、信息抽取等NLP工具构建
语言资源建设: 补充和扩展加泰罗尼亚语的大规模语料库资源

数据与资源

5511667.zipZIP
66.60 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	66.6 MiB
最后更新	2025年12月13日
创建于	2025年12月13日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？