维基百科人类医学语料库

数据集概述

该数据集是西班牙语-英语双语单标签语料库,包含从维基百科提取的2143篇英文、469篇西班牙文人类医学文档,分为替代医学、心脏病学等22个类别,为医学文本研究提供双语分类数据支持。

文件详解

该数据集包含两个文件,具体说明如下: - 文件名称: wikipedia_human_medicine_corpus.zip - 文件格式: ZIP压缩包 - 内容说明: 可能包含语料库的核心数据文件,如分类后的医学文档文本及标签信息 - 文件名称: wikipedia_human_medicine_corpus_creation_process.png - 文件格式: PNG图片 - 内容说明: 可能展示语料库的创建流程或相关示意图

适用场景

  • 自然语言处理研究: 用于医学文本分类、跨语言文本分析等NLP任务
  • 医学信息学研究: 分析多语言医学文档的主题分布与分类特征
  • 双语语料库构建: 作为医学领域双语语料库的基础数据来源
  • 医学教育资源开发: 支持多语言医学知识图谱或学习资源的构建
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 4.67 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。