多语言UVigoMED生物医学文档分类数据集

数据集概述

该数据集为多语言单标签语料库,包含一万一千一百二十六篇英文生物医学文档(源自维基百科人类医学内容)及一万二千五百二十一篇西班牙语、法语等八种语言的文档,所有文档被分类至二十二个医学类别中。

文件详解

  • 文件名称: ML-UVigoMED/ML-UVigoMED.zip
  • 文件格式: ZIP (.zip)
  • 内容说明: 压缩包内包含多语言生物医学文档数据,文档覆盖英语、西班牙语、法语、斯洛文尼亚语、德语、意大利语、加利西亚语、冰岛语、罗马尼亚语共九种语言,所有文档被标注为二十二个医学类别之一(如替代医学、心脏病学、内分泌学等)。

适用场景

  • 多语言文本分类研究: 可用于训练和评估跨语言生物医学文档分类模型
  • 医学领域自然语言处理: 适用于探索医学文本的多语言表示学习
  • 生物医学信息检索: 可用于构建多语言医学文档检索系统
  • 医学分类体系研究: 支持分析不同语言下医学类别标注的一致性与差异
  • 低资源语言NLP应用: 为斯洛文尼亚语、加利西亚语等低资源语言的医学文本处理提供数据支撑
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 34.55 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。