Spanish_text_corpus_Based_Wikipedia_自然语言处理语言学研究数据

数据集概述

本数据集是从Wikipedia提取的西班牙语文本语料库,适用于自然语言处理(NLP)和语言学研究。提取过程采用特定平台,相关方法在文献中有所记载。数据集包含原始提取结果和经清洗过滤后的句子数据,共2个文件。

文件详解

  • 文件名称:rawdata.dat.zip
  • 文件格式:ZIP(压缩包)
  • 字段映射介绍:包含从Wikipedia提取过程的原始结果数据
  • 文件名称:sentences.txt.zip
  • 文件格式:ZIP(压缩包)
  • 字段映射介绍:包含从原始数据经清洗、过滤后提取的句子数据

数据来源

采用Cadavid Rengifo, Héctor Fabio和Jonatan Gómez Perdomo在"Ingeniería e Investigación 29.3 (2009): 54-60"中描述的平台,及ResearchGate上相关硕士论文记载的方法,从Wikipedia提取

适用场景

  • 自然语言处理模型训练: 用于西班牙语NLP模型(如分词、句法分析)的训练与验证
  • 语言学研究: 支持西班牙语词汇、句法、语义等语言学特征分析
  • 文本数据预处理方法验证: 用于测试清洗、过滤等文本预处理流程的效果
  • 跨语言语料库对比研究: 作为西班牙语语料资源,辅助多语言NLP任务的对比分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 361.01 MiB
最后更新 2026年1月7日
创建于 2026年1月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。