TBGA基因疾病关联生物医学关系抽取数据集

数据集概述

该数据集为TBGA,是用于基因-疾病关联(GDA)抽取的大规模半自动标注数据集,包含训练、验证、测试集文本文件及关系名称与ID映射的JSON文件,每条记录对应从句子中提取的单个GDA,以JSON对象结构存储相关信息。

文件详解

  • 数据集压缩包: TBGA.zip,ZIP格式,包含TBGA文件夹及内部所有文件
  • 训练集文本文件: 对应训练集数据,每条记录为JSON对象,包含text(源句子)、relation(关联关系名称)、h(基因实体,含id、name、pos字段)、t(疾病实体,含id、name、pos字段)
  • 验证集文本文件: 结构同训练集,对应验证集数据
  • 测试集文本文件: 结构同训练集,对应测试集数据
  • 关系映射JSON文件: 存储关系名称与ID的映射关系

适用场景

  • 生物医学关系抽取模型训练与评估
  • 基因-疾病关联知识图谱构建
  • 生物医学文本挖掘算法研究
  • 生物医药领域信息抽取应用开发
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 23.21 MiB
最后更新 2025年12月7日
创建于 2025年12月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。