TBGA基因疾病关联生物医学关系抽取数据集

该数据集为TBGA，是用于基因-疾病关联（GDA）抽取的大规模半自动标注数据集，包含训练、验证、测试集文本文件及关系名称与ID映射的JSON文件，每条记录对应从句子中提取的单个GDA，以JSON对象结构存储相关信息。

数据集压缩包: TBGA.zip，ZIP格式，包含TBGA文件夹及内部所有文件
训练集文本文件: 对应训练集数据，每条记录为JSON对象，包含text（源句子）、relation（关联关系名称）、h（基因实体，含id、name、pos字段）、t（疾病实体，含id、name、pos字段）
验证集文本文件: 结构同训练集，对应验证集数据
测试集文本文件: 结构同训练集，对应测试集数据
关系映射JSON文件: 存储关系名称与ID的映射关系

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	23.21 MiB
最后更新	2025年12月7日
创建于	2025年12月7日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。