-
MeSDiCon_CodiEsp子集_西班牙临床文本疾病症状术语映射数据集
2025年12月22日 30 164 39
数据集概述 该数据集是MeSDiCon资源的子集,包含西班牙临床文本中疾病和症状术语的映射数据。通过UMLS Metathesaurus将MeSDiCon中的MESH术语进一步关联到ICD10-CM和ICD10-PCS编码,为西班牙语临床文本的自动疾病/症状检测及医学文本分类提供标准化术语映射支持。 文件详解 压缩文件:...
-
LivingNER标准语料库_物种病原体食物命名实体识别与分类数据集
2025年12月15日 30 21 3
数据集概述 该数据集为LivingNER标准语料库,包含训练、验证、测试及背景集,覆盖多医学专科的两千份临床病例报告,标注物种、病原体、人类及食物等实体,并提供多语言资源,用于命名实体识别、归一化及分类任务。 文件详解 核心压缩文件: livingner-...
-
MedCodER医学编码生成式AI助手数据集
2025年12月15日 30 150 66
数据集概述 该数据集为MedCodER生成式AI医学编码助手项目提供支持,包含医疗记录文本、诊断编码及相关辅助文件,用于训练和验证AI模型的医学编码能力,为医疗编码自动化研究提供数据基础。 文件详解 数据文件(CSV格式): text.csv:包含文档ID、医疗记录文本及ACI文档ID的测试集数据文件...
-
SoMeSci_科学文献中的软件提及数据集
2025年12月13日 30 68 66
数据集概述 该数据集是通过人工标注构建的科学文献中软件提及的黄金标准知识图谱,包含原始黄金标准数据及所有软件相关引用的标注内容,为科学文献中软件提及的研究提供标准化数据支持。 文件详解 Formal_Citation.zip:压缩文件,包含所有软件相关引用的标注数据 SoMeSci.zip:压缩文件,包含原始SoMeSci黄金标准数据 数据来源...
-
BIOMAT_MONER语料库训练与验证集
2025年12月13日 30 87 74
数据集概述 该数据集为BIOMAT-MONER语料库的训练(750篇文档)与验证(100篇文档)集,用于生物材料领域科学文献中制造对象相关实体的命名实体识别(NER)模型开发,聚焦生物材料实验或应用中的制造对象及属性标注。 文件详解 文件名称: BIOMAT-MONER_Train_Set.zip 文件格式: .zip(压缩包) 内容说明:...
-
COVID_19相关生物医学自然语言处理词典与标注语料库工具包
2025年12月13日 30 25 0
数据集概述 本数据集为生物医学自然语言处理任务提供工具包,包含COVID-19相关的英文词典、标注语料库及代码工作流。词典覆盖疾病、病毒、变异株等术语,用于从CORD-19数据集提取信息,构建大型银标准语料库,辅以人工标注的金标准语料库,支持命名实体识别等文本分析任务。 文件详解...
-
Agnus_Data_候选类型描述及真实URI数据集
2025年12月13日 30 84 44
数据集概述 该数据集包含多个压缩文件,涉及候选类型、描述及真实URI等内容,共六个文件,均为ZIP格式,无目录结构,未提供训练/测试、数据/标签或原始/处理数据的划分,无自述文件或内容预览。 文件详解 压缩文件集合:包含六个ZIP格式的压缩文件,具体如下: data_ACE.zip:ZIP格式压缩文件 data_KORE50.zip:ZIP格式压缩文件...
-
西班牙语循证医学临床试验语料库3版
2025年12月12日 30 89 84
数据集概述 该数据集是西班牙语的循证医学临床试验语料库(3版),包含一千二百篇文本(二十九万二千一百七十三条词元),涵盖期刊摘要与临床试验公告,标注了医学实体、语义关系等信息,为医学文本分析提供支持。 文件详解 文件名称:CT-EBM-SP-v3.zip 文件格式:ZIP压缩包...
-
COPIOUS生物多样性文献命名实体标注指南
2025年12月11日 30 163 154
数据集概述 本数据集是COPIOUS生物多样性文献命名实体语料库的配套标注指南,明确标注人员对五类实体的标注范围、标注跨度、例外规则及示例说明,为标准化实体标注提供操作依据。 文件详解 文件名称:oo_252228.pdf 文件格式:PDF...
-
火星目标百科全书_月球与行星科学会议标注摘要数据集2015_2016
2025年12月11日 30 166 74
数据集概述 本数据集包含2015年和2016年月球与行星科学会议(LPSC)发表的117篇摘要的标注文本数据,通过Apache Tika工具提取PDF文本,并以brat标注工具格式提供实体与关系注释,支持文本挖掘与信息提取研究。 文件详解 压缩文件:lpsc-annotated.zip(ZIP格式),包含以下目录和文件:...
-
卡内蒂_菲亚基书信集TEI_XML数据集
2025年12月11日 30 134 100
数据集概述 本数据集是卡马尔多利修道士彼得罗·卡内蒂与马里安杰洛·菲亚基之间书信往来的首个TEI XML版本,包含133封书信(主要为卡内蒂所写)的转录与编码内容,基于TEI标准构建,聚焦第10号档案盒的书信资料。 文件详解 目录结构:数据集包含三个主目录 entities目录:存储书信中识别出的实体及元数据文件 人物:cited-...
-
TBGA基因疾病关联生物医学关系抽取数据集
2025年12月7日 30 31 25
数据集概述 该数据集为TBGA,是用于基因-疾病关联(GDA)抽取的大规模半自动标注数据集,包含训练、验证、测试集文本文件及关系名称与ID映射的JSON文件,每条记录对应从句子中提取的单个GDA,以JSON对象结构存储相关信息。 文件详解 数据集压缩包: TBGA.zip,ZIP格式,包含TBGA文件夹及内部所有文件 训练集文本文件:...
-
OpenChart_SE瑞典人工电子健康记录语料库版本1
2025年12月7日 30 138 121
数据集概述 该数据集为OpenChart-SE语料库版本1,包含五十份由瑞典医师和医学生撰写的人工电子健康记录(EHR),模拟瑞典急诊科真实病历风格,经专业医师审核,用于推动瑞典语临床自然语言处理工具开发。 文件详解 人工病历文件(共五十个): 文件名称:以数字命名的txt文件(如5.txt、11.txt等) 文件格式:TXT(.txt)...
-
PMC_Based_SoftwareKG_PMC_软件知识图谱完整数据
2025年12月6日 30 161 85
数据集概述 本数据集是从PMC开放获取数据集中提取的软件提及知识图谱(SoftwareKG-PMC),以CSV格式压缩包存储。因PDF格式文章未被纳入,涉及的文章总数为三百零三万六千九百一十三篇,为软件相关学术提及的关联分析提供结构化数据支持。 文件详解 文件名称: csv_files.zip 文件格式: ZIP压缩包 内容说明:...
-
HiDy_大型分层动态金融知识库
2025年12月5日 30 103 94
数据集概述 该数据集是一个分层、动态、稳健且多样化的大型金融知识库,包含三十四类关系类型、超五十六万四千四百四十四条关系、十七类实体类型及超五万一千零九十五个实体。数据按宏观、中观、微观及其他四大金融分支分层组织,持续更新以支持金融任务的模型测试。 文件详解 文件名称: data.zip 文件格式: ZIP压缩包 内容说明:...
-
Softcite数据集_研究出版物中的软件提及标注数据集
2025年12月4日 30 203 137
数据集概述 该数据集是研究出版物中软件提及的标注数据集,包含生物医学和经济学领域开放获取文献中的软件提及标注,涉及软件名称、版本、访问URL等信息,以TEI/XML格式存储,还包含描述数据集设计与创建过程的论文。 文件详解 文件名称:howisonlab/softcite-dataset-v1.0.zip 文件格式:ZIP压缩包 压缩包内包含:...
-
文本信息实体识别与匹配评估数据集
2025年11月1日 30 27 13
文本信息实体识别与匹配评估数据集_Text_Information_Entity_Recognition_and_Matching_Evaluation_Dataset 数据来源:互联网公开数据 标签:实体识别, 文本匹配, 自然语言处理, 机器学习, 评估数据集, 命名实体识别, 关系抽取, 文本标注 数据概述:...
-
商品图像属性抽取数据集
2025年10月19日 30 90 17
商品图像属性抽取数据集_Product_Image_Attribute_Extraction_Dataset 数据来源:互联网公开数据 标签:商品图像, 属性提取, 图像识别, 实体识别, 数据标注, 机器学习, 计算机视觉, 商品信息 数据概述: 该数据集包含来自电商平台的商品图像及其对应的属性信息,用于训练和评估图像属性提取模型。主要特征如下:...
-
实体识别模型验证数据集
2025年10月19日 30 188 146
实体识别模型验证数据集_Entity_Recognition_Model_Validation_Dataset 数据来源:互联网公开数据 标签:实体识别, 自然语言处理, 文本标注, 模型评估, 机器学习, 文本分析, 命名实体识别, 数据集 数据概述: 该数据集包含用于评估实体识别(Entity Recognition,...
-
疾病医学知识实体关系数据集
2025年10月17日 30 121 17
疾病医学知识实体关系数据集_Disease_Medical_Knowledge_Entity_Relationship 数据来源:互联网公开数据 标签:医学知识, 疾病诊断, 实体识别, 关系抽取, 数据挖掘, 生物医学, 机器学习, 知识图谱 数据概述:...



