找到7个数据集

标签: 词元标注

过滤结果
  • AnCora_西班牙语多层面标注语料库数据3_0_1

    2026年1月31日 30 210 164

    数据集概述 本数据集为AnCora 3.0.1西班牙语语料库,包含约50万字的新闻文本,覆盖词元、词性、句法成分、论元结构、动词语义类、名物化隐含论元等多层面标注,支持自然语言处理相关研究与应用。 文件详解 文件名称:AnCora 3.0.1 Spanish.zip 文件格式:ZIP...
    packageimg
  • LAGT_Based_多源整合古希腊文本语料库_v4_1

    2026年1月30日 30 62 40

    数据集概述 本数据集为LAGT(lemmatized ancient Greek texts)古希腊文本语料库,整合自Perseus数字图书馆、First 1000 Years of...
    packageimg
  • OWT_Tag_Based_奥克语传统书面民间故事词性标注语料库

    2026年1月28日 30 105 68

    数据集概述 本数据集包含5篇奥克语传统书面民间故事文本摘录,均按照Grace标准进行了词元与词性的人工标注。文本摘录自J.-F. Bladé、J.-V. Lalanne等作者的民间故事集,每篇约1500词,用于评估奥克语词性标注工具Talismane针对OcOr语料库的性能,由ExpressioNarration项目产出。 文件详解 文件名称:OWT-...
    packageimg
  • Tolosa_Treebank_Occitan语言依存句法标注数据

    2026年1月27日 30 38 13

    数据集概述 本数据集是首个奥克语依存树库,由POCTEFA Interreg欧洲基金资助的EFA 227/16 LINGUATEC项目开发。包含25K个标注了词性标签、词元及句法依存关系的词元,遵循通用依存关系(UD)标注规范,数据以ConLL-U格式存储,覆盖加斯科涅、朗格多克、勒穆瓦纳和普罗旺斯四种主要奥克语方言。 文件详解...
    packageimg
  • RoMEMES_Source_罗马尼亚社交媒体表情包多模态标注数据

    2026年1月27日 30 174 63

    数据集概述 本数据集为罗马尼亚语表情包数据集RoMEMES,采集自公共社交媒体平台,包含表情包的文本、图像及相关标注信息。数据经人工标注罗马尼亚语文本、图像复杂度、情感倾向、政治内容属性,文本部分通过RELATE平台自动标注词性、词元及依存句法,同时包含元数据。 文件详解 metadata.tsv 文件格式:TSV...
    packageimg
  • ReM_Based_中古高地德语参考语料库标注文本数据_2016版

    2026年1月27日 30 24 14

    数据集概述 本数据集为中古高地德语参考语料库(ReM),包含1050–1350年间的转录标注文本,规模约200万词形。文本经数字化处理,标注有词性、形态和词元等信息,支持历史语言学及相关研究。ISLRN编号332-536-136-099-5,含3个文件。 文件详解 归档文件组(archive_files) 文件名称:rem-...
    packageimg
  • AnCora_Catalan_Based_加泰罗尼亚语多层面标注语料库_2_0_0版

    2026年1月18日 30 92 24

    数据集概述 本数据集为AnCora Catalan 2.0.0加泰罗尼亚语语料库,包含约五十万字,主要基于新闻文本构建。数据在词元与词性、句法成分与功能、论元结构与题元角色、动词语义类、名词WordNet同义词集关联、命名实体及共指关系等多层面进行标注,是自然语言处理研究的基础资源。 文件详解 文件名称:AnCora Catalan 2.0.0.zip...
    packageimg