找到12个数据集

标签: 开发集

过滤结果
  • CodiEsp西班牙语临床病例ICD10编码金标准数据集_CLEF2020

    2025年12月19日 30 200 24

    数据集概述 该数据集是CLEF eHealth 2020 CodiEsp赛道的西班牙语临床病例金标准语料库,包含训练集、开发集、测试集(含人工注释)及未标注背景集,共一千个临床病例,采用CIE10(西班牙版ICD10)编码术语,为非英语临床病例自动编码研究提供标注数据。 文件详解 数据集为zip压缩包,包含四个文件夹,具体如下: -...
    packageimg
  • MEDDOCAN西班牙语临床病例报告匿名化标注数据集

    2025年12月16日 30 83 71

    数据集概述 该数据集包含MEDDOCAN共享任务的训练、开发、测试集(含黄金标准标注)及背景集(无标注),用于西班牙语临床病例报告的文档匿名化研究。标注采用Brat和XML格式,支持格式转换,为医学文本去标识任务提供标准化数据。 文件详解 文件名称: meddocan.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 辅音挑战语料库

    2025年12月16日 30 171 151

    数据集概述 该语料库提供用于支持人机辅音识别对比(安静与噪声环境)的数据集。包含二十四名英语母语者(十二女、十二男)的语音数据,覆盖二十四个英语辅音在九种元音环境、两种重音类型下的发音,共一万零三百六十八个语音样本,适用于自动语音识别实验的训练、开发和测试。 文件详解 技术说明文件: readme.pdf:...
    packageimg
  • ClinSpEn平行语料库_英语_西班牙语COVID_19临床病例_术语和本体概念数据集

    2025年12月14日 30 102 26

    数据集概述 该数据集为ClinSpEn平行语料库,包含英语-西班牙语COVID-19临床病例报告、临床术语及本体概念三类数据,由专业医学翻译人员翻译并经临床专家修订,适用于训练和评估临床机器翻译系统,还提供单语背景数据用于分析系统在未见过数据上的表现。 文件详解 文件名称: clinspen_corpora_complete.zip 文件格式:...
    packageimg
  • Aitslab_bioimaging1荧光显微镜核标注数据集

    2025年12月13日 30 131 108

    数据集概述 本数据集为荧光显微镜图像基准数据集,含Hoechst 33342染色的细胞核、核碎片及微核标注。图像来自U2OS骨肉瘤细胞系RNA干扰筛选,共50张图像、2000余个标注核对象,预分为训练、开发、测试集,可用于训练细胞核分割神经网络。 文件详解 该数据集包含5个文件,具体说明如下: - 数据文件(压缩包形式): -...
    packageimg
  • 心脏离子通道小分子活性综合数据集

    2025年12月12日 30 199 6

    数据集概述 该数据集是一个面向药物发现领域的综合数据库,涵盖hERG、Nav1.5和Cav1.2三种心脏离子通道的小分子活性数据。数据以压缩文件形式组织,每个离子通道目标包含开发集(含训练/验证子集)及两个不同结构相似度阈值的外部测试集,为离子通道毒性预测模型的构建与评估提供标准化数据支持。 文件详解 压缩文件: dataset.rar:...
    packageimg
  • MESINESP2西班牙语生物医学语义索引标注语料库

    2025年12月11日 30 53 19

    数据集概述 该数据集为MESINESP2任务生成的人工标注语料库,包含科学文献、临床试验、专利摘要三类西班牙语生物医学文档,由领域专家使用DeCS受控词汇标注,旨在推动非英语生物医学内容语义索引工具的开发。 文件详解 子任务语料压缩包:...
    packageimg
  • 时间感知命名实体识别推特语料库

    2025年12月10日 30 186 153

    数据集概述 该数据集为命名实体识别任务开发,包含2014-2019年的12000条标注推特,每年2000条。标注实体类型为地点(LOC)、人物(PER)和组织(ORG),用于研究时间数据漂移对NER模型的影响。 文件详解 文件名称: temporal-ner-twitter-corpus.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • Cantemist肿瘤临床病例CIE_O_3术语标注金标准语料库

    2025年12月9日 30 65 21

    数据集概述 该数据集是Cantemist共享任务语料库,包含训练集、开发集、测试集及背景集,涵盖cantemist-ner、cantemist-norm、cantemist-coding三个子任务的金标准标注数据,背景集为无标注文档,用于西班牙语癌症文本挖掘研究。 文件详解 数据集包含一个压缩文件,具体说明如下: - 文件名称:...
    packageimg
  • BNE_Based_PastReader_2025_历史报刊数字化完整数据

    2025年12月8日 30 108 77

    数据集概述 该数据集用于IberLEF 2025的PastReader 2025共享任务,基于西班牙国家图书馆数字化的公共领域历史报刊生成,包含训练、开发、测试三类压缩文件,支持相关历史文本处理任务研究。 文件详解 文件名称:train.zip 文件格式:ZIP压缩文件 说明:训练集压缩包,具体内容未提供预览 文件名称:dev.zip...
    packageimg
  • Zenodo_DCASE2024Task7_Based_文本提示环境声音合成完整数据集

    2025年12月7日 30 159 137

    数据集概述 本数据集包含三百一十组音频片段与对应文本提示,音频时长均为四秒。所有内容经人工精心设计,支持环境声音场景合成任务的生成模型开发与评估。数据分为开发集与评估集,结构清晰,可实现对生成模型的可控量化评估。 文件详解 数据集以压缩包形式提供,解压后包含以下目录结构: - 开发集目录(dev/): - audio/:存放开发集的WAV格式音频文件...
    packageimg
  • DrugProt语料库_BioCreative_VII_Track1_药物化学物质_蛋白质相互作用文本挖掘数据集

    2025年12月4日 30 4 0

    数据集概述 该数据集是BioCreative VII Track 1任务的金标准标注语料库,包含训练集、开发集、测试集及背景集,涵盖PubMed摘要、人工标注的化学物质/基因实体及化学-蛋白质关系,用于推动药物发现、精准医疗相关的文本挖掘系统开发。 文件详解 训练集文件夹...
    packageimg