数据集 - 海数据

La_Pola_Siero_阿斯图里亚斯地图第4问口语语料数据

2026年1月29日

数据集概述本数据集包含与“阿斯图里亚斯地图：第4问”相关的La Pola Siero地区口语语料，核心为1份docx格式文档，未区分训练/测试、数据/标签或原始/处理数据，无额外目录层级，文件类型单一。文件详解文件名称：Mapa de Asturias.Pregunta4.docx 文件格式：docx...

ZIP

CLDF_Based红水河流域壮语方言可懂度调查数据集2010

2026年1月29日

数据集概述本数据集是基于Castro和Hansen 2010年《红水河流域壮语方言》的CLDF格式数据集，包含红水河流域壮语方言可懂度调查相关内容，由SIL International发布，仅含一个压缩文件。文件详解文件名称：lexibank/castrozhuang-v1.1.zip 文件格式：ZIP...

ZIP

ChatGPT_Based_HSK3词汇句子翻译准确性研究数据

2026年1月28日

数据集概述本数据集围绕HSK3词汇句子的ChatGPT翻译准确性展开研究，包含一份文档文件，记录了相关研究的核心数据内容，可用于分析ChatGPT在HSK3词汇句子翻译任务中的表现。文件详解文件名称：Data CHATGPT dan KAMUS BESAR.docx 文件格式：DOCX...

ZIP

OWT_Tag_Based_奥克语传统书面民间故事词性标注语料库

2026年1月28日

数据集概述本数据集包含5篇奥克语传统书面民间故事文本摘录，均按照Grace标准进行了词元与词性的人工标注。文本摘录自J.-F. Bladé、J.-V. Lalanne等作者的民间故事集，每篇约1500词，用于评估奥克语词性标注工具Talismane针对OcOr语料库的性能，由ExpressioNarration项目产出。文件详解文件名称：OWT-...

ZIP

Tesseract_Based_阿尔萨斯方言OCR训练模型数据集

2026年1月28日

数据集概述本数据集包含为阿尔萨斯方言开发的两个Tesseract OCR训练模型，由法国ANR资助的RESTAURE项目生成。模型分别针对Tesseract 3.0x和4.0x版本训练，基于不同训练文本和方法构建，配套字典数据来自多类阿尔萨斯语料库与词典，可用于阿尔萨斯方言文本的光学字符识别。文件详解 ISKO_2015.zip 文件格式：ZIP...

ZIP

Central_Loloish_Based_语言词汇同言线数据库

2026年1月28日

数据集概述本数据集为Central Loloish（Ngwi）语言的潜在词汇同言线数据库，聚焦该语系语言中的词汇同言线现象，提供结构化数据支持语言学研究。数据集包含1个文件，无目录层级划分，未区分训练/测试、数据/标签或原始/处理数据。文件详解文件名称：Central_Loloish_lexical_isogloss_database.xlsx...

ZIP

Parahungarian_Based_匈牙利名词范式词典数据集

2026年1月28日

数据集概述本数据集为匈牙利名词数据集，基于Unimorph数据清理而来，采用Paralex标准格式构建，包含10个文件，涵盖结构化CSV表格、说明文档、元数据等。数据以关系模型组织，提供匈牙利名词的词形、词素、特征值等信息，适用于语言学研究与自然语言处理任务。文件详解数据文件（CSV格式，共5个）...

ZIP

African_News_Corpus_非洲19种语言新闻语料数据

2026年1月27日

数据集概述本数据集为非洲19种语言的单语种新闻语料库，来源包括VOA、BBC、Isolezwe等平台及项目。数据由不同来源整合而成，涉及多种非洲本土语言，总计包含20个文件，均为压缩格式，无目录层级结构。文件详解压缩文件包...

ZIP

Álgu_Based_Ume_Saami词汇数据现代化拼写转换数据

2026年1月27日

数据集概述本数据集包含源自Schlachter 1958版Ume Saami词典的多版处理数据，从Álgu数据库获取并与原始词典核对词头变体，将词头机械转换为近似现代Ume Saami正字法（参考Barruk 2018）。提供字母化列表及反向字母化文件，含3个文件，支持词汇研究与语言保护。文件详解压缩文件（ume-MalaLpW-mod.zip）...

ZIP

Lolo_Burmese_Based彝缅语比较词汇数据库_未完成版

2026年1月27日

数据集概述本数据集为彝缅语比较词汇数据库，整合了Shintani（2001）和Lama（2012）的词汇表与释义内容，以电子表格形式呈现，目前仍处于开发中。数据集包含一份文件，用于支持彝缅语族语言的词汇比较研究。文件详解文件名称：Lolo-Burmese_lexical_database.xlsx 文件格式：XLSX...

ZIP

Fongbe_Speech_Dataset_贝宁Fongbe语言语音数据集

2026年1月21日

数据集概述本数据集为贝宁主要使用的Fongbe语言语音数据集，包含语音音频文件、对应转录文本、数据集文档及元数据文件，用于支持Fongbe语言相关的语音技术研究与应用开发。文件详解压缩包文件文件名称：Fongbe_Speech_Dataset.zip 文件格式：ZIP 字段映射介绍：压缩包内包含三个核心部分：...

ZIP

Vocabulary_Workshop_2021词汇工具目录参考数据

2026年1月26日

数据集概述本数据集为2021年词汇研讨会生成的词汇工具目录草案副本，在2022年词汇研讨会中被提及。目录由多位参与者合作创建，旨在汇总词汇工具信息，帮助用户解决词汇工具选择问题，包含一份Excel格式文件。文件详解文件名称：Catalogue of Vocabulary tools from 2021 workshop - referred to...

ZIP

历史语言学补充资料_蔡家语言数据集_Sagart_250_概念词表数据

2026年1月23日

数据集概述本数据集是论文《从历时角度看蔡家语值得注意的语音特征》的补充材料，包含基于Sagart 250概念框架构建的蔡家语词汇表，用于支撑蔡家语语音特征的历时研究，为历史语言学领域提供结构化的词汇数据参考。文件详解文件名称：Caijia - Sagart 250-concept list.xlsx 文件格式：XLSX...

ZIP

Kara_Nonopai_Frog_Story_多格式口头传统记录数据

2026年1月22日

数据集概述本数据集包含Kara Nonopai语言使用者Lilian Maturau讲述的青蛙故事相关记录，涵盖原始与编辑版本的多格式文件，共5个文件，用于保存和展示该语言的口头叙事内容。文件详解文件名称：Kara_Nonopai_Frog Story.MOV 文件格式：MOV 字段映射介绍：青蛙故事的视频记录文件...

ZIP

DravLex_Based_达罗毗荼语词汇数据库首版数据_v1_0_0

2026年1月22日

数据集概述本数据集为DravLex达罗毗荼语词汇数据库的首次发布版本，包含一个压缩文件，整体目录结构简洁，未划分训练/测试集、数据/标签集或原始/处理数据，无自述文件或内容预览，核心为达罗毗荼语词汇相关数据。文件详解压缩文件文件名称：Verkerk/DravLex-v1.0.0.zip 文件格式：ZIP...

ZIP

Phlorest_Based_Pama_Nyungan语言系统发育树数据

2026年1月22日

数据集概述本数据集是基于Bouckaert等人2018年发表的《澳大利亚Pama-Nyungan语言的起源与扩张》研究生成的Phlorest系统发育树数据，用于记录和分析澳大利亚Pama-Nyungan语言的演化关系，为语言学研究提供结构化的系统发育参考。文件详解文件名称：phlorest/bouckaert_et_al2018-v1.1.zip...

ZIP

Lee_Hasegawa_Based_Ainu语言时空演化CLDF数据集

2026年1月21日

数据集概述本数据集是基于Lee和Hasegawa 2013年发表的《Ainu Language in Space and Time》研究生成的CLDF格式数据集，包含与阿伊努语言时空演化相关的语言数据，以压缩文件形式存储，是研究阿伊努语言演化的结构化参考资料。文件详解文件名称：lexibank/leeainu-v1.2.zip 文件格式：ZIP...

ZIP

Sino_Tibetan_Based_汉藏语系降雨表达类型学研究辅助数据

2026年1月21日

数据集概述本数据集为汉藏语系降雨表达类型学研究的补充数据，核心内容围绕汉藏语系语言中降雨相关表达的类型学特征展开，支持对该语言现象的系统性分析。数据集包含1个文件，整体结构简单，无目录层级划分。文件详解文件名称：Rain in ST supplementary data.xlsx 文件格式：XLSX...

ZIP

CELEN_Shareable_日语学习者西班牙语语料库共享数据_v1_2

2026年1月21日

数据集概述本数据集是CELEN语料库（版本1.2）的共享部分，包含约39.1万个单词、4393篇文本，来自967名日语背景的西班牙语学习者。数据覆盖大学西班牙语专业、大学外语课程及WordReference论坛三个场景，标注了学习者水平（A1-B2、C2），并对大学来源文本进行了匿名化处理，采用XML格式存储，附带39项元数据。文件详解...