MESINESP_Train_Based西班牙语医学语义索引训练数据集2019

数据集概述

本数据集为MESINESP西班牙语医学语义索引训练数据集,包含从虚拟健康图书馆(VHL)的LILACS和IBECS数据库中提取的369,368条西班牙语医学文献记录,涵盖科学文章、专利和临床试验等类型。数据分为原始训练集和预处理训练集,提供文献元数据、摘要及DeCS代码等信息,用于医学语义索引相关任务。

文件详解

  • 压缩包文件:MESINESP-training.zip
  • 文件格式:ZIP
  • 包含内容:
  • 原始训练集:含369,368条记录,保留从VHL获取的限定符信息
  • 预处理训练集:含318,658条至少有一个DeCS代码且无修饰符的记录
  • JSON文件格式:
  • 字段映射:包含id(文献ID)、title(标题)、abstractText(摘要内容)、journal(期刊名)、year(年份)、db(数据库名)、decsCodes(DeCS代码列表)
  • DeCS转换表:通过链接提供,含DeCS代码、首选描述符、同义词列表(欧洲和拉丁西班牙语版本)

数据来源

虚拟健康图书馆(VHL)的LILACS和IBECS数据库

适用场景

  • 医学语义索引模型训练: 用于西班牙语生物医学文献的自动语义标注和索引系统开发
  • 生物医学文本挖掘: 基于摘要内容和DeCS代码进行主题分类、关键词提取等文本分析任务
  • 医学数据库检索优化: 研究DeCS代码在文献检索中的应用,提升医学数据库的检索准确性
  • 西班牙语医学文献分析: 统计西班牙语医学文献的分布特征、摘要长度及主题覆盖情况
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 294.53 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。