找到4个数据集

标签: 词汇表构建

过滤结果
  • Ciência_Vitae_Controlled_Vocabulary_角色受控词汇表数据

    2026年1月13日 30 121 24

    数据集概述 本数据集为Ciência Vitae学术数据库的角色受控词汇表,包含学术场景中各类角色的标准化术语,用于统一角色信息的分类与描述。数据集仅含一个XML格式文件,提供结构化的角色词汇数据。 文件详解 文件名称:papelDesempenhado.xml 文件格式:XML 字段映射介绍:作为XML格式的受控词汇表文件,包含Ciência...
    packageimg
  • NCAS仪器词汇表数据集

    2025年12月15日 30 20 7

    数据集概述 该数据集包含NCAS(英国国家大气科学中心)仪器的受控词汇表,以压缩包形式存储,为规范和统一仪器相关术语提供数据支持。 文件详解 文件名称:ncas-data-instrument-vocabs-v5.zip 文件格式:ZIP压缩包(.zip) 内容说明:压缩包内包含NCAS仪器的受控词汇表数据,具体字段及结构需解压后查看 适用场景...
    packageimg
  • 藏语古典词性标注词汇表

    2025年12月4日 30 199 187

    数据集概述 该数据集是为自然语言处理(NLP)任务构建的藏语古典词性标注词汇表。数据来源于动词词干数字化版本及人工标注的训练数据,部分词汇通过手动添加以优化基于规则的词性标注,适用于藏语古典文本的词性分析与处理。 文件详解 文件名称: Lexicons.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 中文文本分词训练数据集

    2025年10月24日 30 121 65

    中文文本分词训练数据集_Chinese_Text_Tokenization_Training_Dataset 数据来源:互联网公开数据 标签:中文分词, 文本处理, 自然语言处理, 机器学习, 词汇表构建, BPE分词, 语料库, 深度学习 数据概述: 该数据集包含用于中文文本分词任务的训练数据和相关配置信息。主要特征如下:...
    packageimg