维基百科双语单标签语料库

数据集概述

该数据集是一个西班牙语-英语双语单标签语料库,包含英文文档3019篇、西班牙文文档832篇,覆盖文化艺术、地理与地点、数学与逻辑三类主题,可用于自然语言处理相关研究。

文件详解

  • 文件名称: wikipedia_corpus.zip
  • 文件格式: ZIP (.zip)
  • 内容说明: 可能包含语料库的核心数据文件,如文本数据及分类标签等
  • 文件名称: wikipedia_corpus_creation_process.png
  • 文件格式: PNG (.png)
  • 内容说明: 可能为语料库创建过程的示意图或流程图

适用场景

  • 自然语言处理研究: 用于双语文本分类、跨语言模型训练等任务
  • 主题分类模型开发: 基于三类主题的文本分类算法验证与优化
  • 语料库语言学分析: 探究不同语言在通用主题下的文本特征差异
  • 多语言机器学习应用: 辅助构建支持西班牙语与英语的多语言模型
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 15.7 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。