找到9个数据集

格式: ZIP 标签: 语料库标注

过滤结果
  • AED_TEI_Based_埃及长文本词汇排名位置值数据

    2026年1月30日 30 127 122

    数据集概述 本数据集包含埃及文本中词汇的排名位置值,仅覆盖超过100个词汇的文本。排名位置值通过词汇频率衡量其在文本内的相关性,为埃及学文本分析提供结构化词汇重要性参考。数据集含2个文件,以AED-TEI数据为基础。 文件详解 文件名称:readme.txt 文件格式:TXT...
    packageimg
  • ReM_Based_中古高地德语参考语料库标注文本数据_2016版

    2026年1月27日 30 86 18

    数据集概述 本数据集为中古高地德语参考语料库(ReM),包含1050–1350年间的转录标注文本,规模约200万词形。文本经数字化处理,标注有词性、形态和词元等信息,支持历史语言学及相关研究。ISLRN编号332-536-136-099-5,含3个文件。 文件详解 归档文件组(archive_files) 文件名称:rem-...
    packageimg
  • AnCora_Catalan_Based_加泰罗尼亚语多层面标注语料库_2_0_0版

    2026年1月18日 30 53 13

    数据集概述 本数据集为AnCora Catalan 2.0.0加泰罗尼亚语语料库,包含约五十万字,主要基于新闻文本构建。数据在词元与词性、句法成分与功能、论元结构与题元角色、动词语义类、名词WordNet同义词集关联、命名实体及共指关系等多层面进行标注,是自然语言处理研究的基础资源。 文件详解 文件名称:AnCora Catalan 2.0.0.zip...
    packageimg
  • unparliamentary_Based_澳大利亚联邦议会非议会性词汇共现元语用学标注数据

    2026年1月17日 30 74 35

    数据集概述 本数据集为电子表格,记录澳大利亚联邦议会会议记录中与"非议会性"(unparliamentary)词汇共现的词群元语用学标注信息。包含词群相似度排序、标注类别、相关演讲数量及时间趋势等结构化内容,用于分析议会话语中"非议会性"词汇的使用语境与元语用特征。 文件详解...
    packageimg
  • dataset_recognition_resources_IR_ML_NLP领域数据集提及标注语料库

    2026年1月3日 30 144 10

    数据集概述 本数据集是IR/ML/NLP领域的数据集提及标注语料库,基于原始数据集重新标注而来。包含6000个相关领域句子及数据集标注,新增了源文献中开发的新数据集标注,并将复合数据集标注拆分为单独条目,以JSON格式重新打包,含标注偏移量信息。 文件详解 文件名称:ner_dataset_recognition_sentences.json...
    packageimg
  • 皮卡德语标注语料库

    2025年12月20日 30 96 16

    数据集概述 该数据集包含25篇皮卡德语文本,经人工标注词性、词元、法语翻译及地点实体,由法国ANR资助的RESTAURE项目产出,标注流程详见指定学术文章。 文件详解 文件名称: corpus_picard_restaure.zip(压缩包) 文件格式: ZIP 包含内容: "extraits_reference_bruts"文件夹(若有):...
    packageimg
  • 塞尔维亚语动词派生名词注释数据库

    2025年12月20日 30 106 93

    数据集概述 本数据集包含塞尔维亚语中动词派生名词的注释数据,通过对CLASSLA-web.sr语料库中动词“očekivati(期待)”后接名词的例句进行人工标注,分析其形态、词缀、基动词及补语等特征,为研究动词派生名词的语言特性提供支持。 文件详解 文件名称: Annotated database of deverbal...
    packageimg
  • 威廉_弗里德曼_巴赫钢琴奏鸣曲标注乐谱语料库

    2025年12月10日 30 156 74

    数据集概述 该数据集为威廉·弗里德曼·巴赫钢琴奏鸣曲的标注乐谱语料库,包含一个压缩文件,未提供详细内容描述,主要用于音乐研究与乐谱分析场景。 文件详解 文件名称:wf_bach_sonatas-v2.3.zip 文件格式:ZIP(.zip) 内容说明:压缩文件,包含威廉·弗里德曼·巴赫钢琴奏鸣曲的标注乐谱相关数据,具体字段及内容需解压后查看 适用场景...
    packageimg
  • 罗马尼亚法律领域命名实体识别数据集

    2025年12月5日 30 77 16

    数据集概述 该数据集是罗马尼亚法律领域的人工标注语料库,包含法律文献中的组织、地点、人物、时间及法律资源实体标注,提供细粒度法律文献类型划分及部分地点的GEONAMES编码,支持多格式访问与语义网络数据应用。 文件详解 数据集以压缩包形式提供,包含多个子文件夹及文件,具体如下: - 压缩包文件: - legalnero.zip:...
    packageimg