Spanish_text_corpus_Based_Wikipedia_自然语言处理语言学研究数据

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

Spanish_text_corpus_Based_Wikipedia_自然语言处理语言学研究数据

数据集概述

本数据集是从Wikipedia提取的西班牙语文本语料库，适用于自然语言处理（NLP）和语言学研究。提取过程采用特定平台，相关方法在文献中有所记载。数据集包含原始提取结果和经清洗过滤后的句子数据，共2个文件。

文件详解

文件名称：rawdata.dat.zip
文件格式：ZIP（压缩包）
字段映射介绍：包含从Wikipedia提取过程的原始结果数据
文件名称：sentences.txt.zip
文件格式：ZIP（压缩包）
字段映射介绍：包含从原始数据经清洗、过滤后提取的句子数据

数据来源

采用Cadavid Rengifo, Héctor Fabio和Jonatan Gómez Perdomo在"Ingeniería e Investigación 29.3 (2009): 54-60"中描述的平台，及ResearchGate上相关硕士论文记载的方法，从Wikipedia提取

适用场景

自然语言处理模型训练: 用于西班牙语NLP模型（如分词、句法分析）的训练与验证
语言学研究: 支持西班牙语词汇、句法、语义等语言学特征分析
文本数据预处理方法验证: 用于测试清洗、过滤等文本预处理流程的效果
跨语言语料库对比研究: 作为西班牙语语料资源，辅助多语言NLP任务的对比分析

数据与资源

4319957.zipZIP
361.01 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	361.01 MiB
最后更新	2026年1月7日
创建于	2026年1月7日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？