找到156个数据集

标签: 语言资源建设

过滤结果
  • Tiefo_D_Lexicon_Based语言词汇表_Daramandugu地区_2021年4月

    2026年1月8日   

    数据集概述 本数据集为Daramandugu地区Tiefo-D语言的词汇表,需与同作者的《Tiefo-D语法》(DOI:10.5281/zenodo.4715103)及《Tiefo-D文本集》(DOI:10.5281/zenodo.4715132)配合使用,使用说明见语法附录及文本集附录。后续将在密歇根大学图书馆Deep...
    packageimg
  • Multi_CAST_Source_Sanzhi_Dargwa多语言语音标注文本数据_2311版本

    2026年1月6日   

    数据集概述 本数据集为Multi-CAST多语言标注语音文本语料库的一部分,包含Sanzhi Dargwa语言的标注语音文本数据,版本为2311。数据集由班贝格大学发布,是多语言语音语言学研究的结构化资源,仅包含一个压缩文件。 文件详解 文件名称:Multi-CAST/mcsanzhi-v2311.zip 文件格式:ZIP...
    packageimg
  • dictionaria_Based_La_Ventosa_Diidxaza植物词汇词典数据_v1_3

    2026年1月3日   

    数据集概述 本数据集为2018年发布的La Ventosa Diidxazá植物词汇词典,收录Diidxazá语言中与植物相关的词汇及释义,是Dictionaria项目的第5部分成果,共952页,提供在线访问资源。 文件详解 文件名称:dictionaria/diidxaza-v1.3.zip 文件格式:ZIP 字段映射介绍:压缩包包含La...
    packageimg
  • Nonuya_Language_Based_母语者语言转录词汇数据完整文档

    2025年12月18日   

    数据集概述 该数据集收录了Nonuya语言(属于Witoto语系)的八千六百九十三条词汇和表达录音转录文本,涵盖四位母语者的语言材料,包含对原始转录的修订、统一使用AFI符号及添加引用标识符等优化内容。 文件详解 文件名称:NONUYA2019.v4.pdf 文件格式:PDF 内容说明:Nonuya语言转录文本的修订版本文件...
    packageimg
  • Lower_Fungom_Mundabli_Based_非洲语言词汇数字化完整数据

    2025年12月24日   

    数据集概述 该数据集为Mundabli语言的225词表,Mundabli属Yemne-Kimbi语组,通行于喀麦隆西北部Menchum区Fungom分区Lower Fungom地区,语言有声调且名词前缀演变为修饰语一致标记,词表包含两位顾问提供的词汇及个体变异。 文件详解...
    packageimg
  • 库巴_列兹金语城市田野调查数据集2019

    2025年12月23日   

    数据集概述 该数据集是2019至2020年冬季学期科隆大学语言学研究所“城市田野调查”课程的实践成果,包含与阿塞拜疆列兹金语母语者合作采集的库巴-列兹金语资料,涵盖基础词汇、传统儿歌、民谣及相关元数据与项目文档。 文件详解 数据集包含四类核心内容文件,具体说明如下: - 斯瓦迪士核心词表文件(40词节选): - William-...
    packageimg
  • Ajumbu_Lower_Fungom_Based_阿琼布语500名词词表完整数据

    2025年12月23日   

    数据集概述 本数据集为Ajumbu语言的500个名词词表,Ajumbu是喀麦隆西北部Menchum区Fungom分区Lower Fungom地区使用的Yemne-Kimbi语言变体,具有声调特征和名词类词缀,因使用者生活经历差异存在个体变异。 文件详解 文件名称: KPAAMCAM_NTs_AJUMBU-500 NOUNS...
    packageimg
  • 乌兹别克语停用词列表数据集

    2025年12月23日   

    数据集概述 本数据集包含通过三种自动方法从乌兹别克语"学校语料库"生成的停用词列表,涵盖单字词、双字词及带搭配的双字词停用词,为乌兹别克语自然语言处理任务提供基础资源。 文件详解 压缩包文件: uzbek_stopwords.zip: ZIP格式压缩包,包含以下核心文件: stopwords_unigrams.txt:...
    packageimg
  • KPAAMCAM_NTs_FANG_Based_225词表语言特征分析完整数据

    2025年12月23日   

    数据集概述 该数据集为喀麦隆西北部Lower Fungom地区Fang语的225词表,Fang语属Yemne-Kimbi语族,具声调、名词前缀及动词词缀变化,含两位顾问提供的词汇变体数据,变体与社会语言学特征差异相关。 文件详解 数据集包含一个PDF格式的文档文件,具体如下: -...
    packageimg
  • 藏缅语音和词汇CLDF数据集1991

    2025年12月23日   

    数据集概述 该数据集是基于孙宏开1991年出版的《藏缅语音和词汇》构建的CLDF格式数据集,核心内容为藏缅语族语言的语音与词汇相关数据,为语言比较研究提供标准化数据支持。 文件详解 文件名称:lexibank/suntb-v4.1.zip 文件格式:ZIP压缩包(.zip)...
    packageimg
  • 蒙古语喀尔喀方言象声词在运动描述中的作用问卷与样本数据集

    2025年12月22日   

    数据集概述 本数据集是《认知语义学》期刊论文的补充资料,包含两份问卷和一组运动描述样本,围绕蒙古语喀尔喀方言中象声词在运动描述中的作用展开,涵盖语义、形态句法特征及实际使用案例。 文件详解 文件名称:A_Questionnaire-1_with-responses.tsv 文件格式:TSV(制表符分隔值)...
    packageimg
  • 数据73种语言句子级释义语料库TaPaCo

    2025年12月22日   

    数据集概述 该数据集为73种语言的句子级释义语料库TaPaCo,从Tatoeba数据库提取,经语言无关过滤和修剪步骤处理。含约190万句,每种语言20万至25万句,覆盖无其他释义数据集的语言,部分语言人工评估显示半数至四分之三释义正确。 文件详解 文件名称: tapaco_v1.0.zip:压缩包格式,包含73种语言的句子级释义语料库数据 文件名称:...
    packageimg
  • 东印度尼西亚语言LexiRumah数据库v3_0_1

    2025年12月22日   

    数据集概述 该数据集是东印度尼西亚语言的LexiRumah数据库,版本为v3.0.1。以压缩包形式存储,包含相关语言数据,为研究东印度尼西亚语言提供数据支持。 文件详解 文件名称:lessersunda/lexirumah-data-v3.0.1.zip 文件格式:ZIP(.zip)...
    packageimg
  • Lower_Fungom_Ngun_Based_喀麦隆Ngun语言词汇资源数据集

    2025年12月22日   

    数据集概述 该数据集为Ngun语言的225词表,Ngun是蒙巴姆语的一种变体,属于也门-金比语族,使用于喀麦隆西北部Menchum省Fungom分区的Lower Fungom地区,语言具有声调及名词前缀特征,记录了两位顾问间的词汇变异。 文件详解 文件名称:...
    packageimg
  • 中文隐喻语料库

    2025年12月21日   

    数据集概述 该数据集为中文隐喻语料库,包含一个压缩文件,未提供训练/测试、数据/标签、原始/处理数据的划分,主要用于隐喻相关的自然语言处理研究与应用。 文件详解 文件名称: ChineseMetaphorCorpus-metaphor.zip 文件格式: ZIP(压缩文件) 内容说明:...
    packageimg
  • 乌尔都语中源自英语的医学术语结构语义分析

    2025年12月21日   

    数据集概述 该数据集包含一份关于乌尔都语中源自英语的医学术语的结构语义分析文档,以PDF格式呈现,为研究医学术语跨语言演变及语义特征提供资料支持。 文件详解 文件名称: Vahobova Shoira.pdf 文件格式: PDF (.pdf) 文件内容: 围绕乌尔都语中源自英语的医学术语展开结构与语义层面的分析,具体内容需查阅文档原文。 适用场景...
    packageimg
  • 突尼斯阿拉伯语拉丁转写语料库2017_2021

    2025年12月21日   

    数据集概述 该数据集是2017-2021年构建的突尼斯阿拉伯语(ISO 693-3: aeb)拉丁转写(Arabizi)文本资源,通过网络爬取Facebook公开页面消息,经人工筛选保留纯突尼斯阿拉伯语拉丁转写内容,无标注或调整,用于解决突尼斯阿拉伯语拉丁转写NLP数据库缺失问题。 文件详解 文本文件(.txt格式,共13个):...
    packageimg
  • 皮卡德语标注语料库

    2025年12月20日   

    数据集概述 该数据集包含25篇皮卡德语文本,经人工标注词性、词元、法语翻译及地点实体,由法国ANR资助的RESTAURE项目产出,标注流程详见指定学术文章。 文件详解 文件名称: corpus_picard_restaure.zip(压缩包) 文件格式: ZIP 包含内容: "extraits_reference_bruts"文件夹(若有):...
    packageimg
  • 喀麦隆Lower_Fungom地区Mufu语言225词词汇表

    2025年12月20日   

    数据集概述 该数据集为喀麦隆Lower Fungom地区Mufu语言的225词词汇表。Mufu属于Yemne-Kimbi语族,是一种声调语言,其名词前缀已演变为定语环境下的一致标记。数据收集自两位顾问,存在个体词汇差异,可能与社会语言学背景相关。 文件详解...
    packageimg
  • 瑞典历时词用法图数据集

    2025年12月20日   

    数据集概述 本数据集包含针对瑞典语的历时词用法图(Diachronic Word Usage Graphs, WUGs),提供了瑞典语词汇使用随时间变化的结构化数据,可用于语言演变相关研究。 文件详解 文件名称: dwug_sv.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg