找到229个数据集

标签: 命名实体识别

过滤结果
  • 帕皮阿门托语医疗环境关键词识别语音转文本数据集

    2025年12月16日 30 192 14

    数据集概述 本数据集为帕皮阿门托语医疗环境下的关键词识别语音转文本研究开发,包含七个类别(六个关键词和一个未知类别)的语音样本,经过滤后共16766个样本,每个样本为一秒钟录音生成的频谱图,用于推动帕皮阿门托语关键词识别研究。 文件详解 文件名称:papiamento_keyword_spotting_dataset.zip...
    packageimg
  • 法国建筑技术规范木工条款命名实体识别与关系抽取标注数据集

    2025年12月15日 30 76 21

    数据集概述 本数据集包含从法国建筑技术规范(CCTP)中提取的二百三十三条原始木工条款要求,来源于七十二份法国公共建筑项目的CCTP文档,涵盖一万九千七百二十五句、六十五万一千九百四十八个词。数据集通过Doccano工具完成命名实体识别(NER)和关系抽取(RE)标注,适用于建筑领域需求工程的自然语言处理研究。 文件详解...
    packageimg
  • LivingNER标准语料库_物种病原体食物命名实体识别与分类数据集

    2025年12月15日 30 131 30

    数据集概述 该数据集为LivingNER标准语料库,包含训练、验证、测试及背景集,覆盖多医学专科的两千份临床病例报告,标注物种、病原体、人类及食物等实体,并提供多语言资源,用于命名实体识别、归一化及分类任务。 文件详解 核心压缩文件: livingner-...
    packageimg
  • ToxHabits_NER_毒性习惯场景命名实体识别标注数据集

    2025年12月15日 30 168 161

    数据集概述 该数据集是西班牙语临床文本中“毒性习惯”命名实体识别的标注数据,聚焦烟草使用、酒精消费、非法药物使用等实体的检测与分类,含训练集和测试集,为临床及流行病学研究提供标注资源。 文件详解 训练集文件: ToxHabits(ToxNER)_Train_ANNFiles.zip:ZIP格式,包含ToxNER任务的训练集标注文件...
    packageimg
  • test_Based_无来源图片数据基础分析完整数据

    2025年12月15日 30 183 124

    数据集概述 该数据集包含2个.jpg格式的图片文件,无目录结构,未检测到命名模式或数据分割(如训练/测试、数据/标签、原始/处理),无自述文件或内容预览。 文件详解 图片文件: 58615824_p0.jpg: JPG格式,具体内容未提供 background1.jpg: JPG格式,具体内容未提供 适用场景 图片格式或存储结构的基础分析...
    packageimg
  • 海盗规则集_第五周

    2025年12月14日 30 166 90

    数据集概述 该数据集包含与“海盗规则”相关的文件,主要为图片文件(JPEG格式)和一个GLB格式文件,可能用于展示或参考海盗主题的视觉素材与模型。 文件详解 文件名称及格式: 5个JPEG格式图片文件:thumb0.jpeg、thumb1.jpeg、thumb2.jpeg、thumb3.jpeg、thumb4.jpeg...
    packageimg
  • MedProcNER医疗程序命名实体识别金标准标注数据集

    2025年12月14日 30 198 118

    数据集概述 该数据集是用于西班牙语医疗文档中临床程序信息抽取的金标准标注资源,包含训练集七百五十份文档、测试集二百五十份文档,以及SNOMED CT编码词表、SNOMED CT与MeSH交叉映射文件,还提供九种语言的银标准版本,为医疗程序检测与实体链接任务提供支持。 文件详解 文件名称:...
    packageimg
  • BIOMAT_CellNER语料库训练与验证集

    2025年12月4日 60 132 82

    数据集概述 该数据集包含BIOMAT-CellNER语料库的训练集(七百五十篇文档)和验证集(一百篇文档),聚焦生物材料领域科学文献中细胞实体(细胞类型、细胞系)的命名实体识别标注,支持相关NER模型开发。 文件详解 数据集包含一个压缩文件,具体说明如下: - 文件名称: BIOMAT-CellNER_Train_Set.zip - 文件格式:...
    packageimg
  • BIOMAT_MONER语料库训练与验证集

    2025年12月13日 30 29 25

    数据集概述 该数据集为BIOMAT-MONER语料库的训练(750篇文档)与验证(100篇文档)集,用于生物材料领域科学文献中制造对象相关实体的命名实体识别(NER)模型开发,聚焦生物材料实验或应用中的制造对象及属性标注。 文件详解 文件名称: BIOMAT-MONER_Train_Set.zip 文件格式: .zip(压缩包) 内容说明:...
    packageimg
  • MultiCardioNER语料库_临床命名实体识别系统的心脏病学领域多语言适配数据集

    2025年12月13日 30 30 15

    数据集概述 该数据集为MultiCardioNER共享任务语料库,聚焦临床命名实体识别(NER)系统向心脏病学领域的适配。整合DisTEMIST(疾病)、DrugTEMIST(药物)及新标注心脏病临床病例数据,含训练、开发验证与测试集,支持西班牙语疾病识别及多语言药物识别两大任务。 文件详解 文件名称:...
    packageimg
  • COVID_19相关生物医学自然语言处理词典与标注语料库工具包

    2025年12月13日 30 95 2

    数据集概述 本数据集为生物医学自然语言处理任务提供工具包,包含COVID-19相关的英文词典、标注语料库及代码工作流。词典覆盖疾病、病毒、变异株等术语,用于从CORD-19数据集提取信息,构建大型银标准语料库,辅以人工标注的金标准语料库,支持命名实体识别等文本分析任务。 文件详解...
    packageimg
  • SocialDisNER西班牙语推文疾病提及标注数据集

    2025年12月12日 30 197 70

    数据集概述 该数据集为SocialDisNER语料库,包含人工标注的西班牙语推文疾病提及金标准数据(训练集5000条、验证集2500条)及自动标注的大规模银标准数据(85000余条推文),覆盖疾病、药物等多类实体,用于研究社交媒体健康内容中的疾病提及识别。 文件详解 主数据压缩包: SocialDisNER_Data.zip 包含training-...
    packageimg
  • COPIOUS生物多样性文献命名实体标注指南

    2025年12月11日 30 51 22

    数据集概述 本数据集是COPIOUS生物多样性文献命名实体语料库的配套标注指南,明确标注人员对五类实体的标注范围、标注跨度、例外规则及示例说明,为标准化实体标注提供操作依据。 文件详解 文件名称:oo_252228.pdf 文件格式:PDF...
    packageimg
  • MESINESP2西班牙语生物医学语义索引标注语料库

    2025年12月11日 30 71 13

    数据集概述 该数据集为MESINESP2任务生成的人工标注语料库,包含科学文献、临床试验、专利摘要三类西班牙语生物医学文档,由领域专家使用DeCS受控词汇标注,旨在推动非英语生物医学内容语义索引工具的开发。 文件详解 子任务语料压缩包:...
    packageimg
  • 多语言历史报纸命名实体识别实体链接与立场检测数据集2021

    2025年12月11日 30 181 64

    数据集概述 该数据集为多语言历史报纸资源,包含1850-1950年法语、德语、芬兰语和瑞典语的历史报纸材料,涵盖命名实体识别、实体链接及实体立场检测标注,用于开发和评估历史文档的命名实体处理系统。 文件详解 文件名称: NewsEye-GT-NER_EL_StD-v1.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 基于知识图谱嵌入的作者名消歧数据集_含文本与数值字面量

    2025年12月10日 30 129 106

    数据集概述 本数据集包含两个学术知识图谱,分别来源于OpenCitations提供的《Scientometrics》期刊三元组存储和2018年AMiner作者名消歧(AND)基准数据集。数据按文本字面量、数值字面量分类存储,支持多模态知识图谱嵌入研究,含评估数据集及预处理的嵌入文件。 文件详解 该数据集包含3个文件,具体说明如下: - 文档文件: -...
    packageimg
  • 时间感知命名实体识别推特语料库

    2025年12月10日 30 93 61

    数据集概述 该数据集为命名实体识别任务开发,包含2014-2019年的12000条标注推特,每年2000条。标注实体类型为地点(LOC)、人物(PER)和组织(ORG),用于研究时间数据漂移对NER模型的影响。 文件详解 文件名称: temporal-ner-twitter-corpus.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • Cantemist肿瘤临床病例CIE_O_3术语标注金标准语料库

    2025年12月9日 30 187 114

    数据集概述 该数据集是Cantemist共享任务语料库,包含训练集、开发集、测试集及背景集,涵盖cantemist-ner、cantemist-norm、cantemist-coding三个子任务的金标准标注数据,背景集为无标注文档,用于西班牙语癌症文本挖掘研究。 文件详解 数据集包含一个压缩文件,具体说明如下: - 文件名称:...
    packageimg
  • 现代藏文报纸命名实体识别数据集_标注集与指南

    2025年12月9日 30 142 3

    数据集概述 本数据集包含现代藏文报纸命名实体识别(NER)的标注集、指南及训练数据,聚焦中国境内当代藏文媒体文本。涵盖17类实体标签、经人工审核的训练数据及原始标注文件,为藏文NER模型开发提供基础资源。 文件详解 标注规范文件: NER for Modern Tibetan-tagset and...
    packageimg
  • 伦敦生活请愿项目数据集2_0

    2025年12月8日 30 8 7

    数据集概述 本数据集是伦敦生活请愿项目的2.0版本更新,新增了基于伦敦生活姓名标记的可识别请愿人数据,并优化了教区教堂执事请愿书的标签,为研究历史请愿活动提供更丰富的信息。 文件详解 文件名称: sharonhoward/llpp-v2.0.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg