找到5个数据集

分类: 公开数据 标签: 多语言词汇

过滤结果
  • CLICS1_0数据库底层数据集

    2025年12月15日 30 55 1

    数据集概述 该数据集为原始CLICS数据库的底层数据,由四个来源整合而成。现提供此数据以方便用户快速访问,因CLICS 1.0已被新版CLICS²数据库取代。数据包含LingPy库规范的原始词表格式和CLDF格式,支持在CLICS²新API中复用。 文件详解 文件名称: clics1-1.1.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 加泰罗尼亚语和西班牙语词汇简化与复杂度预测数据集

    2025年12月13日 30 112 42

    数据集概述 本数据集包含加泰罗尼亚语和西班牙语的词汇简化与复杂度预测数据,是MLSP多语言词汇简化管道数据集的一部分,曾用于BEA教育应用NLP创新研讨会的MLSP共享任务,支持词汇复杂度评估与简化研究。 文件详解 加泰罗尼亚语测试数据压缩包:Catalan_Test.zip,ZIP格式,包含加泰罗尼亚语测试用词汇简化与复杂度预测数据...
    packageimg
  • Wichmann_2025_ASJP_Database_Based_语言比较研究CLDF完整数据

    2025年12月11日 30 205 159

    数据集概述 本数据集是基于Wichmann等人2025年发布的"ASJP Database"第21版转换而来的CLDF格式数据集,为语言比较研究提供标准化数据支持。 文件详解 文件名称: lexibank/asjp-v21.zip 文件格式: ZIP压缩包(.zip) 内容说明: 包含ASJP...
    packageimg
  • 汉文字词网络数据集

    2025年12月6日 30 168 111

    数据集概述 该数据集是构建汉文字词网络(SiLeNe)的半原始数据,整合了以汉字为传统文字的多语言词汇描述开放数据源,支持跨语言语言学研究,包含CSV格式的核心数据文件及相关说明文档。 文件详解 Silene-data.README: 文本格式文件,说明数据集是构建汉文字词网络的半原始数据,整合多语言词汇描述开放数据源,支持跨语言语言学研究。...
    packageimg
  • Tsammalex动植物词汇数据库0_3版

    2025年12月5日 30 186 121

    数据集概述 该数据集为Tsammalex 0.3版,是一个关于动植物的词汇数据库,聚焦语言贡献维度,由Christfried Naumann等编辑,2015年发布于马克斯·普朗克进化人类学研究所。 文件详解 文件名称:tsammalex-data-v0.3.zip 文件格式:.zip(压缩包) 内容说明:压缩包内包含Tsammalex...
    packageimg