-
La_Pola_Siero_阿斯图里亚斯地图第4问口语语料数据
数据集概述 本数据集包含与“阿斯图里亚斯地图:第4问”相关的La Pola Siero地区口语语料,核心为1份docx格式文档,未区分训练/测试、数据/标签或原始/处理数据,无额外目录层级,文件类型单一。 文件详解 文件名称:Mapa de Asturias.Pregunta4.docx 文件格式:docx...
-
CLDF_Based红水河流域壮语方言可懂度调查数据集2010
数据集概述 本数据集是基于Castro和Hansen 2010年《红水河流域壮语方言》的CLDF格式数据集,包含红水河流域壮语方言可懂度调查相关内容,由SIL International发布,仅含一个压缩文件。 文件详解 文件名称:lexibank/castrozhuang-v1.1.zip 文件格式:ZIP...
-
ChatGPT_Based_HSK3词汇句子翻译准确性研究数据
数据集概述 本数据集围绕HSK3词汇句子的ChatGPT翻译准确性展开研究,包含一份文档文件,记录了相关研究的核心数据内容,可用于分析ChatGPT在HSK3词汇句子翻译任务中的表现。 文件详解 文件名称:Data CHATGPT dan KAMUS BESAR.docx 文件格式:DOCX...
-
OWT_Tag_Based_奥克语传统书面民间故事词性标注语料库
数据集概述 本数据集包含5篇奥克语传统书面民间故事文本摘录,均按照Grace标准进行了词元与词性的人工标注。文本摘录自J.-F. Bladé、J.-V. Lalanne等作者的民间故事集,每篇约1500词,用于评估奥克语词性标注工具Talismane针对OcOr语料库的性能,由ExpressioNarration项目产出。 文件详解 文件名称:OWT-...
-
Tesseract_Based_阿尔萨斯方言OCR训练模型数据集
数据集概述 本数据集包含为阿尔萨斯方言开发的两个Tesseract OCR训练模型,由法国ANR资助的RESTAURE项目生成。模型分别针对Tesseract 3.0x和4.0x版本训练,基于不同训练文本和方法构建,配套字典数据来自多类阿尔萨斯语料库与词典,可用于阿尔萨斯方言文本的光学字符识别。 文件详解 ISKO_2015.zip 文件格式:ZIP...
-
Central_Loloish_Based_语言词汇同言线数据库
数据集概述 本数据集为Central Loloish(Ngwi)语言的潜在词汇同言线数据库,聚焦该语系语言中的词汇同言线现象,提供结构化数据支持语言学研究。数据集包含1个文件,无目录层级划分,未区分训练/测试、数据/标签或原始/处理数据。 文件详解 文件名称:Central_Loloish_lexical_isogloss_database.xlsx...
-
Parahungarian_Based_匈牙利名词范式词典数据集
数据集概述 本数据集为匈牙利名词数据集,基于Unimorph数据清理而来,采用Paralex标准格式构建,包含10个文件,涵盖结构化CSV表格、说明文档、元数据等。数据以关系模型组织,提供匈牙利名词的词形、词素、特征值等信息,适用于语言学研究与自然语言处理任务。 文件详解 数据文件(CSV格式,共5个)...
-
African_News_Corpus_非洲19种语言新闻语料数据
数据集概述 本数据集为非洲19种语言的单语种新闻语料库,来源包括VOA、BBC、Isolezwe等平台及项目。数据由不同来源整合而成,涉及多种非洲本土语言,总计包含20个文件,均为压缩格式,无目录层级结构。 文件详解 压缩文件包...
-
Álgu_Based_Ume_Saami词汇数据现代化拼写转换数据
数据集概述 本数据集包含源自Schlachter 1958版Ume Saami词典的多版处理数据,从Álgu数据库获取并与原始词典核对词头变体,将词头机械转换为近似现代Ume Saami正字法(参考Barruk 2018)。提供字母化列表及反向字母化文件,含3个文件,支持词汇研究与语言保护。 文件详解 压缩文件(ume-MalaLpW-mod.zip)...
-
Lolo_Burmese_Based彝缅语比较词汇数据库_未完成版
数据集概述 本数据集为彝缅语比较词汇数据库,整合了Shintani(2001)和Lama(2012)的词汇表与释义内容,以电子表格形式呈现,目前仍处于开发中。数据集包含一份文件,用于支持彝缅语族语言的词汇比较研究。 文件详解 文件名称:Lolo-Burmese_lexical_database.xlsx 文件格式:XLSX...
-
Fongbe_Speech_Dataset_贝宁Fongbe语言语音数据集
数据集概述 本数据集为贝宁主要使用的Fongbe语言语音数据集,包含语音音频文件、对应转录文本、数据集文档及元数据文件,用于支持Fongbe语言相关的语音技术研究与应用开发。 文件详解 压缩包文件 文件名称:Fongbe_Speech_Dataset.zip 文件格式:ZIP 字段映射介绍:压缩包内包含三个核心部分:...
-
Vocabulary_Workshop_2021词汇工具目录参考数据
数据集概述 本数据集为2021年词汇研讨会生成的词汇工具目录草案副本,在2022年词汇研讨会中被提及。目录由多位参与者合作创建,旨在汇总词汇工具信息,帮助用户解决词汇工具选择问题,包含一份Excel格式文件。 文件详解 文件名称:Catalogue of Vocabulary tools from 2021 workshop - referred to...
-
历史语言学补充资料_蔡家语言数据集_Sagart_250_概念词表数据
数据集概述 本数据集是论文《从历时角度看蔡家语值得注意的语音特征》的补充材料,包含基于Sagart 250概念框架构建的蔡家语词汇表,用于支撑蔡家语语音特征的历时研究,为历史语言学领域提供结构化的词汇数据参考。 文件详解 文件名称:Caijia - Sagart 250-concept list.xlsx 文件格式:XLSX...
-
Kara_Nonopai_Frog_Story_多格式口头传统记录数据
数据集概述 本数据集包含Kara Nonopai语言使用者Lilian Maturau讲述的青蛙故事相关记录,涵盖原始与编辑版本的多格式文件,共5个文件,用于保存和展示该语言的口头叙事内容。 文件详解 文件名称:Kara_Nonopai_Frog Story.MOV 文件格式:MOV 字段映射介绍:青蛙故事的视频记录文件...
-
DravLex_Based_达罗毗荼语词汇数据库首版数据_v1_0_0
数据集概述 本数据集为DravLex达罗毗荼语词汇数据库的首次发布版本,包含一个压缩文件,整体目录结构简洁,未划分训练/测试集、数据/标签集或原始/处理数据,无自述文件或内容预览,核心为达罗毗荼语词汇相关数据。 文件详解 压缩文件 文件名称:Verkerk/DravLex-v1.0.0.zip 文件格式:ZIP...
-
Phlorest_Based_Pama_Nyungan语言系统发育树数据
数据集概述 本数据集是基于Bouckaert等人2018年发表的《澳大利亚Pama-Nyungan语言的起源与扩张》研究生成的Phlorest系统发育树数据,用于记录和分析澳大利亚Pama-Nyungan语言的演化关系,为语言学研究提供结构化的系统发育参考。 文件详解 文件名称:phlorest/bouckaert_et_al2018-v1.1.zip...
-
Lee_Hasegawa_Based_Ainu语言时空演化CLDF数据集
数据集概述 本数据集是基于Lee和Hasegawa 2013年发表的《Ainu Language in Space and Time》研究生成的CLDF格式数据集,包含与阿伊努语言时空演化相关的语言数据,以压缩文件形式存储,是研究阿伊努语言演化的结构化参考资料。 文件详解 文件名称:lexibank/leeainu-v1.2.zip 文件格式:ZIP...
-
Sino_Tibetan_Based_汉藏语系降雨表达类型学研究辅助数据
数据集概述 本数据集为汉藏语系降雨表达类型学研究的补充数据,核心内容围绕汉藏语系语言中降雨相关表达的类型学特征展开,支持对该语言现象的系统性分析。数据集包含1个文件,整体结构简单,无目录层级划分。 文件详解 文件名称:Rain in ST supplementary data.xlsx 文件格式:XLSX...
-
CELEN_Shareable_日语学习者西班牙语语料库共享数据_v1_2
数据集概述 本数据集是CELEN语料库(版本1.2)的共享部分,包含约39.1万个单词、4393篇文本,来自967名日语背景的西班牙语学习者。数据覆盖大学西班牙语专业、大学外语课程及WordReference论坛三个场景,标注了学习者水平(A1-B2、C2),并对大学来源文本进行了匿名化处理,采用XML格式存储,附带39项元数据。 文件详解...
-
East_Caucasian_Based_东高加索村庄地理语言数据2021
数据集概述 本数据集包含东高加索地区的村庄列表,记录了村庄的坐标、使用语言及方言归属信息,方言归属基于现有文献及部分专家个人交流整理而成。数据通过单个文件呈现,为研究该地区语言地理分布提供基础信息。 文件详解 文件名称:villages_oct2021.xlsx 文件格式:XLSX...



