找到15个数据集

标签: 标注语料库

过滤结果
  • AnCora_西班牙语多层面标注语料库数据3_0_1

    2026年1月31日 30 160 55

    数据集概述 本数据集为AnCora 3.0.1西班牙语语料库,包含约50万字的新闻文本,覆盖词元、词性、句法成分、论元结构、动词语义类、名物化隐含论元等多层面标注,支持自然语言处理相关研究与应用。 文件详解 文件名称:AnCora 3.0.1 Spanish.zip 文件格式:ZIP...
    packageimg
  • MiRoR11_P2_Based_主要与报告结局提取标注语料库数据

    2026年1月27日 30 40 39

    数据集概述 本数据集为MiRoR11-P2项目下的标注语料库,用于主要结局与报告结局的提取任务。包含两个子文件夹,分别存储主要结局和报告结局的标注文本,支持医疗文本中结局信息的结构化提取研究,总含多格式标注文件及交叉验证子数据集。 文件详解 Primary_outcomes子文件夹...
    packageimg
  • Multi_CAST_Arta_Based多语言口语标注文本数据集2311

    2026年1月21日 30 63 57

    数据集概述 本数据集为Multi-CAST Arta多语言口语标注文本语料库,是Multi-CAST项目的一部分,收录于《Multi-CAST: Multilingual corpus of annotated spoken texts》第2311版本中。数据以压缩包形式提供,包含多语言口语文本的标注内容,适用于语言学领域的多语言口语研究。 文件详解...
    packageimg
  • Multi_CAST_Nafsan_Based多语言口语文本标注语料库数据2311

    2026年1月15日 30 71 18

    数据集概述 本数据集为Multi-CAST多语言口语文本标注语料库的一部分,具体包含Nafsan语言的口语文本标注数据。该语料库由班贝格大学发布,属于Multi-CAST项目的2311版本,是多语言口语文本资源的重要组成部分。 文件详解 压缩文件 文件名称:mcnafsan-v2311.zip 文件格式:ZIP 字段映射介绍:压缩包内包含Multi-...
    packageimg
  • Alpenwort_Corpus_奥地利阿尔卑斯俱乐部年鉴数字化标注语料库数据1869_1998

    2026年1月11日 30 145 4

    数据集概述 本数据集为奥地利阿尔卑斯俱乐部1869-1998年年鉴(Zeitschrift des Deutschen und Österreichischen Alpenvereins,ZAV)的数字化标注语料库,覆盖阿尔卑斯山脉探索、全球山地研究、环境保护等主题,遵循CLARIN-DARIAH标准添加元数据,助力学术研究。 文件详解...
    packageimg
  • dataset_recognition_resources_IR_ML_NLP领域数据集提及标注语料库

    2026年1月3日 30 111 17

    数据集概述 本数据集是IR/ML/NLP领域的数据集提及标注语料库,基于原始数据集重新标注而来。包含6000个相关领域句子及数据集标注,新增了源文献中开发的新数据集标注,并将复合数据集标注拆分为单独条目,以JSON格式重新打包,含标注偏移量信息。 文件详解 文件名称:ner_dataset_recognition_sentences.json...
    packageimg
  • 西波莱尼亚语数词形式问卷与语料库标记数据集2016_2017

    2025年12月22日 30 76 3

    数据集概述 本数据集包含西波莱尼亚语使用者关于数词短语的问卷回答草稿,以及语料库中的数词短语标记数据。问卷基于Shevelov(1963)研究设计,涵盖视觉刺激回答与直接诱发的阳性人类名词数词形式,还补充了自由文本中的低位数词短语实例。 文件详解 文件名称: Questionnaire_NUMERALS(2017).pdf 文件格式: PDF...
    packageimg
  • 奥克语标注语料库

    2025年12月21日 30 152 20

    数据集概述 该数据集为奥克语标注语料库,包含经人工标注词性和词元的奥克语文本,共28篇文档、12425个词元,标注流程详见指定学术文章,为奥克语自然语言处理研究提供基础数据。 文件详解 文件名称: CorpusRestaureOccitan.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含采用TSV CoNLL-...
    packageimg
  • 皮卡德语标注语料库

    2025年12月20日 30 187 183

    数据集概述 该数据集包含25篇皮卡德语文本,经人工标注词性、词元、法语翻译及地点实体,由法国ANR资助的RESTAURE项目产出,标注流程详见指定学术文章。 文件详解 文件名称: corpus_picard_restaure.zip(压缩包) 文件格式: ZIP 包含内容: "extraits_reference_bruts"文件夹(若有):...
    packageimg
  • 柴可夫斯基四季乐谱标注语料库

    2025年12月19日 30 156 146

    数据集概述 本数据集为柴可夫斯基《四季》乐谱的标注语料库,包含一套经过标注的乐谱文件,以压缩包形式存储,可用于音乐分析、乐谱数字化研究等场景。 文件详解 文件名称:DCMLab/tchaikovsky_seasons-v2.3.zip 文件格式:ZIP压缩包(.zip)...
    packageimg
  • 头巾相关数字极化分析的YouTube评论标注数据集

    2025年12月15日 30 5 3

    数据集概述 本数据集围绕头巾相关话题的数字极化现象,收集并标注了YouTube平台的用户评论,包含原始数据、语料库文件及一致性检验文件,为研究社交媒体上的观点极化提供支持。 文件详解 数据文件(.xlsx格式): Raw Data.xlsx:原始YouTube评论数据 Corpus 1.xlsx:第一部分标注语料库 Corpus...
    packageimg
  • iRead4Skills_数据集2_多语言标注语料库报告

    2025年12月15日 30 188 91

    数据集概述 本数据集是iRead4Skills项目的第二部分,提供了针对法语、葡萄牙语和西班牙语的复杂度分级标注语料库的详细报告,包含分类标注流程、数据构成、质量分析及标注样本等核心内容。 文件详解 文件名称: iRead4Skills_D3.7_Dataset_Annotated_Corpora_Report.pdf 文件格式: PDF (.pdf)...
    packageimg
  • COVID_19相关生物医学自然语言处理词典与标注语料库工具包

    2025年12月13日 30 200 24

    数据集概述 本数据集为生物医学自然语言处理任务提供工具包,包含COVID-19相关的英文词典、标注语料库及代码工作流。词典覆盖疾病、病毒、变异株等术语,用于从CORD-19数据集提取信息,构建大型银标准语料库,辅以人工标注的金标准语料库,支持命名实体识别等文本分析任务。 文件详解...
    packageimg
  • 古典藏文标注语料库2020_Version2_带分词与词性标注

    2025年12月7日 30 94 33

    数据集概述 该数据集为古典藏文标注语料库(ACTib)第二版,包含超一亿八千五百万个词元,基于XML文件构建,提供分词与词性标注的压缩文件,采用自动后处理方法,未涉及人工校正。 文件详解 数据集包含11个压缩文件,具体说明如下: - 压缩文件组(共11个.zip格式文件): - SegPOS-...
    packageimg
  • 贝多芬标注乐谱语料库

    2025年12月6日 30 48 25

    数据集概述 该数据集为贝多芬乐谱的标注语料库(ABC),包含使用标准化标签进行和声分析的乐谱数据,以压缩包形式存储,未划分训练测试集、数据标签或原始/处理数据。 文件详解 文件名称: DCMLab/ABC-v2.6.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含贝多芬乐谱的标注语料库数据,具体字段及结构未通过预览提供 适用场景 音乐学研究:...
    packageimg