找到244个数据集

标签: 实体识别

过滤结果
  • GRS_Based_中世纪斯拉夫国王编年史命名人物分类数据

    2026年1月30日 30 72 57

    数据集概述 本数据集为《Gesta regum Sclavorum》(中世纪拉丁编年史,记录亚得里亚海东岸及邻近地区斯拉夫国王谱系与历史)中的所有命名人物列表,包含一个Excel文件,分两个工作表分别列出男性和女性命名人物,呈现文本中人物命名的性别分布差异。 文件详解 文件名称:Named Male and Female Characters in...
    packageimg
  • AttackER_NER_Based_网络攻击归因标注数据集

    2026年1月29日 30 50 41

    数据集概述 本数据集为AttackER网络攻击归因NER数据集,包含8个文件,涵盖JSON格式和spacy格式的训练、测试、验证数据,以及预训练模型压缩包和模型运行脚本。数据支持使用spaCy或Huggingface transformers框架训练网络攻击归因领域的NER模型,适用于网络安全场景下的实体识别任务。 文件详解 数据文件(JSON格式)...
    packageimg
  • BioEsCorpus_西班牙语临床报告生物医学实体关系注释语料库

    2026年1月27日 30 139 9

    数据集概述 本数据集包含对西班牙临床案例语料库(SPACCC)中18份西班牙语临床报告进行生物医学实体与语义关系标注的文件及资源。标注涵盖11类实体和8类语义关系,最终识别出324个实体(涉及10类实体)和170条关系(涉及5类关系),为生物医学文本处理研究提供结构化标注资源。 文件详解 brat_annotations目录...
    packageimg
  • CT_EBM_SP_Based_西班牙循证医学临床试验标注语料数据

    2026年1月27日 30 114 42

    数据集概述 本数据集为西班牙循证医学临床试验语料库(CT-EBM-SP),包含一千二百篇西班牙语临床试验相关文本(共二十九万二千一百七十三个词元),涵盖五百篇期刊摘要及七百篇临床试验公告,标注有解剖学、药理化学物质等四类医学实体,适用于医学自然语言处理研究。 文件详解 文件名称:CT-EBM-SP.zip 文件格式:ZIP...
    packageimg
  • GreetingsFrom_Based历史明信片地址转录数据集2023

    2026年1月22日 30 183 84

    数据集概述 本数据集包含500张具有历史意义的明信片背面的地址转录数据,覆盖比利时、法国、德国、卢森堡、荷兰和英国六个国家。数据集提供人类标注的Ground Truth(GT)和手写文本识别(HTR)两种转录版本,用于历史明信片地址信息的提取研究。 文件详解 GreetingsFrom_GT.zip 文件格式:ZIP...
    packageimg
  • CoronaCentral_Source_生物医学多类型实体术语列表数据

    2026年1月21日 30 54 1

    数据集概述 本数据集为CoronaCentral系统使用的术语列表,包含基因、药物、冠状病毒蛋白、症状等多种生物医学实体的名称、同义词及标识符,共7个JSON文件,用于支持生物医学领域的实体识别与关联分析。 文件详解...
    packageimg
  • LODsyndesisIE_Evaluation_实体识别评估集与结果数据

    2026年1月21日 30 8 2

    数据集概述 本数据集包含LODsyndesisIE实体识别任务的评估资源,涵盖SimpleWiki、MSNBC、AQUAINT三个评估集的10篇测试文本(平均每篇83.2词、含15.8个实体),以及不同实体识别工具的效果与效率评估结果,用于验证实体识别及LODsyndesis内容富集能力。 文件详解 评估文本文件(TXT格式)...
    packageimg
  • Bomber_s_Baedeker_Based_二战德国城镇经济重要性指南开放数据

    2026年1月18日 30 125 49

    数据集概述 本数据集是二战期间英国外交部与经济战部编制的《The Bomber's Baedeker》两卷本数字化成果,记录了德国千余居民城镇的战争相关基础设施、工业及生产设施信息。原书仅存4份实体副本,经莱布尼茨欧洲历史研究所等机构合作数字化,成为符合FAIR原则的开放机器可读数据源。 文件详解...
    packageimg
  • MEDDOPROF_Test_Set_西班牙语临床病例职业信息检测共享任务测试数据

    2026年1月15日 30 21 1

    数据集概述 本数据集是MEDDOPROF共享任务的测试集,用于西班牙语临床病例中职业、就业状态的自动检测。该任务包含三个子任务:职业实体识别(MEDDOPROF-NER)、职业指代分类(MEDDOPROF-CLASS)和职业标准化(MEDDOPROF-NORM),可支撑医疗、社会服务、制药等多领域的文本处理需求,数据集包含一个压缩文件。 文件详解...
    packageimg
  • Implicit_Opinion_Mining_航空业用户评论隐式方面意见挖掘分析数据

    2026年1月14日 30 99 51

    数据集概述 本数据集为航空业领域的手动标注语料库,聚焦用户生成评论中的隐式方面意见挖掘。通过识别评论中未明确提及但隐含的实体(如客舱、座椅)及对应意见,填补该领域隐式方面意见研究的空白,为相关分析提供结构化标注数据,包含4个文件。 文件详解 文件名称:Individual_Label_data.zip 文件格式:ZIP...
    packageimg
  • dataset_recognition_resources_IR_ML_NLP领域数据集提及标注语料库

    2026年1月3日 30 130 16

    数据集概述 本数据集是IR/ML/NLP领域的数据集提及标注语料库,基于原始数据集重新标注而来。包含6000个相关领域句子及数据集标注,新增了源文献中开发的新数据集标注,并将复合数据集标注拆分为单独条目,以JSON格式重新打包,含标注偏移量信息。 文件详解 文件名称:ner_dataset_recognition_sentences.json...
    packageimg
  • TEI_XML_Moravian_See_Voyages_Travel_Diaries_Text_Data

    2025年12月31日 30 151 132

    数据集概述 本数据集包含六份摩拉维亚海航行日记的TEI/XML格式文件,记录了不同年份的航行文本内容,可用于历史航行记录的文本分析与研究,支持自然语言处理相关任务。 文件详解 数据文件 文件名称:1753Text.xml、1742Text.xml、1749Text.xml、1761Text.xml、1746Text.xml、1752Text.xml...
    packageimg
  • COVID_19_ClinicalTrials_gov_临床试验提及蛋白质和化学物质文本挖掘数据_2023

    2025年12月30日 30 103 47

    数据集概述 本数据集是基于ClinicalTrials.gov数据库的COVID-19相关临床试验文本挖掘结果,通过自动化管道动态标记试验中提及的化学物质、蛋白质和基因名称,包含8个数据文件,支持对临床试验生物医学实体的追踪与分析,数据将定期更新。 文件详解 protein_whitelist.json 文件格式:JSON...
    packageimg
  • UIMA_ConceptMapper_Based_2021_BioASQ语料库药物与癫痫本体术语标注字典数据

    2025年12月28日 30 131 21

    数据集概述 本数据集包含用于UIMA ConceptMapper工具的字典文件,用于对2021 BioASQ语料库进行药物名称及癫痫本体术语标注。字典分别源自DrugBank词汇库及NCBO BioPortal的EpSO、ESSO、EPILONT、EPISEM、FENICS五种癫痫本体,共六个XML格式文件,可支撑生物医学文本的语义实体识别与标注。...
    packageimg
  • MeSDiCon_CodiEsp子集_西班牙临床文本疾病症状术语映射数据集

    2025年12月22日 30 174 65

    数据集概述 该数据集是MeSDiCon资源的子集,包含西班牙临床文本中疾病和症状术语的映射数据。通过UMLS Metathesaurus将MeSDiCon中的MESH术语进一步关联到ICD10-CM和ICD10-PCS编码,为西班牙语临床文本的自动疾病/症状检测及医学文本分类提供标准化术语映射支持。 文件详解 压缩文件:...
    packageimg
  • LivingNER标准语料库_物种病原体食物命名实体识别与分类数据集

    2025年12月15日 30 166 15

    数据集概述 该数据集为LivingNER标准语料库,包含训练、验证、测试及背景集,覆盖多医学专科的两千份临床病例报告,标注物种、病原体、人类及食物等实体,并提供多语言资源,用于命名实体识别、归一化及分类任务。 文件详解 核心压缩文件: livingner-...
    packageimg
  • MedCodER医学编码生成式AI助手数据集

    2025年12月15日 30 12 4

    数据集概述 该数据集为MedCodER生成式AI医学编码助手项目提供支持,包含医疗记录文本、诊断编码及相关辅助文件,用于训练和验证AI模型的医学编码能力,为医疗编码自动化研究提供数据基础。 文件详解 数据文件(CSV格式): text.csv:包含文档ID、医疗记录文本及ACI文档ID的测试集数据文件...
    packageimg
  • SoMeSci_科学文献中的软件提及数据集

    2025年12月13日 30 53 2

    数据集概述 该数据集是通过人工标注构建的科学文献中软件提及的黄金标准知识图谱,包含原始黄金标准数据及所有软件相关引用的标注内容,为科学文献中软件提及的研究提供标准化数据支持。 文件详解 Formal_Citation.zip:压缩文件,包含所有软件相关引用的标注数据 SoMeSci.zip:压缩文件,包含原始SoMeSci黄金标准数据 数据来源...
    packageimg
  • BIOMAT_MONER语料库训练与验证集

    2025年12月13日 30 158 112

    数据集概述 该数据集为BIOMAT-MONER语料库的训练(750篇文档)与验证(100篇文档)集,用于生物材料领域科学文献中制造对象相关实体的命名实体识别(NER)模型开发,聚焦生物材料实验或应用中的制造对象及属性标注。 文件详解 文件名称: BIOMAT-MONER_Train_Set.zip 文件格式: .zip(压缩包) 内容说明:...
    packageimg
  • COVID_19相关生物医学自然语言处理词典与标注语料库工具包

    2025年12月13日 30 52 4

    数据集概述 本数据集为生物医学自然语言处理任务提供工具包,包含COVID-19相关的英文词典、标注语料库及代码工作流。词典覆盖疾病、病毒、变异株等术语,用于从CORD-19数据集提取信息,构建大型银标准语料库,辅以人工标注的金标准语料库,支持命名实体识别等文本分析任务。 文件详解...
    packageimg