-
Agnus_Data_候选类型描述及真实URI数据集
数据集概述 该数据集包含多个压缩文件,涉及候选类型、描述及真实URI等内容,共六个文件,均为ZIP格式,无目录结构,未提供训练/测试、数据/标签或原始/处理数据的划分,无自述文件或内容预览。 文件详解 压缩文件集合:包含六个ZIP格式的压缩文件,具体如下: data_ACE.zip:ZIP格式压缩文件 data_KORE50.zip:ZIP格式压缩文件...
-
西班牙语循证医学临床试验语料库3版
数据集概述 该数据集是西班牙语的循证医学临床试验语料库(3版),包含一千二百篇文本(二十九万二千一百七十三条词元),涵盖期刊摘要与临床试验公告,标注了医学实体、语义关系等信息,为医学文本分析提供支持。 文件详解 文件名称:CT-EBM-SP-v3.zip 文件格式:ZIP压缩包...
-
COPIOUS生物多样性文献命名实体标注指南
数据集概述 本数据集是COPIOUS生物多样性文献命名实体语料库的配套标注指南,明确标注人员对五类实体的标注范围、标注跨度、例外规则及示例说明,为标准化实体标注提供操作依据。 文件详解 文件名称:oo_252228.pdf 文件格式:PDF...
-
火星目标百科全书_月球与行星科学会议标注摘要数据集2015_2016
数据集概述 本数据集包含2015年和2016年月球与行星科学会议(LPSC)发表的117篇摘要的标注文本数据,通过Apache Tika工具提取PDF文本,并以brat标注工具格式提供实体与关系注释,支持文本挖掘与信息提取研究。 文件详解 压缩文件:lpsc-annotated.zip(ZIP格式),包含以下目录和文件:...
-
卡内蒂_菲亚基书信集TEI_XML数据集
数据集概述 本数据集是卡马尔多利修道士彼得罗·卡内蒂与马里安杰洛·菲亚基之间书信往来的首个TEI XML版本,包含133封书信(主要为卡内蒂所写)的转录与编码内容,基于TEI标准构建,聚焦第10号档案盒的书信资料。 文件详解 目录结构:数据集包含三个主目录 entities目录:存储书信中识别出的实体及元数据文件 人物:cited-...
-
TBGA基因疾病关联生物医学关系抽取数据集
数据集概述 该数据集为TBGA,是用于基因-疾病关联(GDA)抽取的大规模半自动标注数据集,包含训练、验证、测试集文本文件及关系名称与ID映射的JSON文件,每条记录对应从句子中提取的单个GDA,以JSON对象结构存储相关信息。 文件详解 数据集压缩包: TBGA.zip,ZIP格式,包含TBGA文件夹及内部所有文件 训练集文本文件:...
-
OpenChart_SE瑞典人工电子健康记录语料库版本1
数据集概述 该数据集为OpenChart-SE语料库版本1,包含五十份由瑞典医师和医学生撰写的人工电子健康记录(EHR),模拟瑞典急诊科真实病历风格,经专业医师审核,用于推动瑞典语临床自然语言处理工具开发。 文件详解 人工病历文件(共五十个): 文件名称:以数字命名的txt文件(如5.txt、11.txt等) 文件格式:TXT(.txt)...
-
PMC_Based_SoftwareKG_PMC_软件知识图谱完整数据
数据集概述 本数据集是从PMC开放获取数据集中提取的软件提及知识图谱(SoftwareKG-PMC),以CSV格式压缩包存储。因PDF格式文章未被纳入,涉及的文章总数为三百零三万六千九百一十三篇,为软件相关学术提及的关联分析提供结构化数据支持。 文件详解 文件名称: csv_files.zip 文件格式: ZIP压缩包 内容说明:...
-
HiDy_大型分层动态金融知识库
数据集概述 该数据集是一个分层、动态、稳健且多样化的大型金融知识库,包含三十四类关系类型、超五十六万四千四百四十四条关系、十七类实体类型及超五万一千零九十五个实体。数据按宏观、中观、微观及其他四大金融分支分层组织,持续更新以支持金融任务的模型测试。 文件详解 文件名称: data.zip 文件格式: ZIP压缩包 内容说明:...
-
Softcite数据集_研究出版物中的软件提及标注数据集
数据集概述 该数据集是研究出版物中软件提及的标注数据集,包含生物医学和经济学领域开放获取文献中的软件提及标注,涉及软件名称、版本、访问URL等信息,以TEI/XML格式存储,还包含描述数据集设计与创建过程的论文。 文件详解 文件名称:howisonlab/softcite-dataset-v1.0.zip 文件格式:ZIP压缩包 压缩包内包含:...
-
文本信息实体识别与匹配评估数据集
文本信息实体识别与匹配评估数据集_Text_Information_Entity_Recognition_and_Matching_Evaluation_Dataset 数据来源:互联网公开数据 标签:实体识别, 文本匹配, 自然语言处理, 机器学习, 评估数据集, 命名实体识别, 关系抽取, 文本标注 数据概述:...
-
商品图像属性抽取数据集
商品图像属性抽取数据集_Product_Image_Attribute_Extraction_Dataset 数据来源:互联网公开数据 标签:商品图像, 属性提取, 图像识别, 实体识别, 数据标注, 机器学习, 计算机视觉, 商品信息 数据概述: 该数据集包含来自电商平台的商品图像及其对应的属性信息,用于训练和评估图像属性提取模型。主要特征如下:...
-
实体识别模型验证数据集
实体识别模型验证数据集_Entity_Recognition_Model_Validation_Dataset 数据来源:互联网公开数据 标签:实体识别, 自然语言处理, 文本标注, 模型评估, 机器学习, 文本分析, 命名实体识别, 数据集 数据概述: 该数据集包含用于评估实体识别(Entity Recognition,...
-
疾病医学知识实体关系数据集
疾病医学知识实体关系数据集_Disease_Medical_Knowledge_Entity_Relationship 数据来源:互联网公开数据 标签:医学知识, 疾病诊断, 实体识别, 关系抽取, 数据挖掘, 生物医学, 机器学习, 知识图谱 数据概述:...
-
医学论文结构元素识别预测数据集
医学论文结构元素识别预测数据集_Medical_Paper_Structure_Element_Recognition_Prediction 数据来源:互联网公开数据 标签:医学论文, 文本标注, 结构识别, 自然语言处理, 机器学习, 文本分类, 实体识别, 预测模型 数据概述:...
-
商家地址相似度特征数据集
商家地址相似度特征数据集_Business_Address_Similarity_Feature_Dataset 数据来源:互联网公开数据 标签:地址匹配, 文本相似度, 机器学习, 特征工程, 实体识别, 数据挖掘, 地理信息, 商家信息 数据概述:...
-
文本信息实体识别与关系抽取评估数据集
文本信息实体识别与关系抽取评估数据集_Text_Information_Entity_Recognition_and_Relation_Extraction_Evaluation 数据来源:互联网公开数据 标签:实体识别, 关系抽取, 自然语言处理, 文本标注, 深度学习, 模型评估, 机器学习, 文本分析 数据概述:...
-
医学论文结构要素识别预测数据集
医学论文结构要素识别预测数据集_Medical_Paper_Structure_Element_Recognition_Prediction 数据来源:互联网公开数据 标签:医学, 论文分析, 文本标注, 序列标注, 实体识别, 自然语言处理, 深度学习, 机器学习 数据概述:...
-
文本信息匹配与实体识别评估数据集
文本信息匹配与实体识别评估数据集_Text_Information_Matching_and_Entity_Recognition_Evaluation_Dataset 数据来源:互联网公开数据 标签:文本匹配, 实体识别, 评估数据集, 机器学习, 自然语言处理, 标注数据, 模型训练, 性能评估 数据概述:...
-
学术论文写作文本结构分析数据集
学术论文写作文本结构分析数据集_Academic_Paper_Writing_Text_Structure_Analysis 数据来源:互联网公开数据 标签:文本分析, 自然语言处理, 论文写作, 结构化文本, 文本标注, 机器学习, 实体识别, 文本分割 数据概述:...



