数据集概述
本数据集为MESINESP西班牙语医学语义索引训练数据集,包含从虚拟健康图书馆(VHL)的LILACS和IBECS数据库中提取的369,368条西班牙语医学文献记录,涵盖科学文章、专利和临床试验等类型。数据分为原始训练集和预处理训练集,提供文献元数据、摘要及DeCS代码等信息,用于医学语义索引相关任务。
文件详解
- 压缩包文件:
MESINESP-training.zip
- 文件格式:ZIP
- 包含内容:
- 原始训练集:含369,368条记录,保留从VHL获取的限定符信息
- 预处理训练集:含318,658条至少有一个DeCS代码且无修饰符的记录
- JSON文件格式:
- 字段映射:包含
id(文献ID)、title(标题)、abstractText(摘要内容)、journal(期刊名)、year(年份)、db(数据库名)、decsCodes(DeCS代码列表)
- DeCS转换表:通过链接提供,含DeCS代码、首选描述符、同义词列表(欧洲和拉丁西班牙语版本)
数据来源
虚拟健康图书馆(VHL)的LILACS和IBECS数据库
适用场景
- 医学语义索引模型训练: 用于西班牙语生物医学文献的自动语义标注和索引系统开发
- 生物医学文本挖掘: 基于摘要内容和DeCS代码进行主题分类、关键词提取等文本分析任务
- 医学数据库检索优化: 研究DeCS代码在文献检索中的应用,提升医学数据库的检索准确性
- 西班牙语医学文献分析: 统计西班牙语医学文献的分布特征、摘要长度及主题覆盖情况