-
lexibank_Papuan_Voices巴布亚语音数据集
数据集概述 本数据集为Papuan Voices语音数据,包含一份压缩文件,主要内容涉及巴布亚地区的语音记录,属于语言类数据集,可用于语言学相关研究与分析。 文件详解 文件名称:lexibank/papuanvoices-v1.2.zip 文件格式:ZIP...
-
ParaKasem_Paralex兼容_Kasem名词数据集
数据集概述 本数据集为符合Paralex标准的Kasem名词数据集,基于Niggli and Niggli (2007)的研究并经Guzmán Naranjo (2019)人工修正,以关系型CSV表格结构呈现,包含发音、词素、形态等结构化信息,共10个文件,支持语言学范式词典研究。 文件详解 文档类文件...
-
Appendix_F_基于信息论的人称代词跨语言变异研究数据
数据集概述 本数据集是论文《They saw it, onu, 它, coming: An information theoretic study of cross-linguistic variation in personal pronouns》的附录F,包含人称代词跨语言变异信息论研究的相关分析数据,具体涵盖brm分析结果、代词频率统计、词长与...
-
IN01045_Sanskrit_Damodara梵语铭文数据
数据集概述 本数据集包含IN01045号Konnur地区Damodara相关的梵语铭文数据,以XML文件形式存储,未包含元数据。数据集仅含一个文件,无目录结构,无训练/测试、数据/标签、原始/处理数据的划分。 文件详解 文件名称:IN01045.xml 文件格式:XML...
-
Pere_Lexicon_Based科特迪瓦濒危语言词汇表数据
数据集概述 本数据集为科特迪瓦Pere语(文献中亦称Pɛrɛ、Bere、Mbre)的词汇表,Pere语是科特迪瓦中部的严重濒危语言,在Glottolog中以"Mbre"收录(代码mbre1244),ISO 639-3代码为mka。数据集包含一份词汇表文件,可用于濒危语言保护与语言学研究。 文件详解 文件名称:Pere lexicon.xlsx...
-
约旦阿拉伯语复数形态与自闭症谱系障碍的关系_儿童语言习得研究数据
数据集概述 本数据集围绕自闭症谱系障碍儿童对约旦阿拉伯语复数形态的习得展开研究,包含一份文档文件,为相关语言学及特殊教育领域的研究提供基础数据支持。 文件详解 文件名称:Dataset.docx 文件格式:DOCX 字段映射介绍:未提供具体字段信息,文件为文档类型,推测包含自闭症儿童习得约旦阿拉伯语复数形态的相关研究内容、数据记录或分析结果。 适用场景...
-
Central_Loloish_Based_语言词汇同言线数据库
数据集概述 本数据集为Central Loloish(Ngwi)语言的潜在词汇同言线数据库,聚焦该语系语言中的词汇同言线现象,提供结构化数据支持语言学研究。数据集包含1个文件,无目录层级划分,未区分训练/测试、数据/标签或原始/处理数据。 文件详解 文件名称:Central_Loloish_lexical_isogloss_database.xlsx...
-
Parahungarian_Based_匈牙利名词范式词典数据集
数据集概述 本数据集为匈牙利名词数据集,基于Unimorph数据清理而来,采用Paralex标准格式构建,包含10个文件,涵盖结构化CSV表格、说明文档、元数据等。数据以关系模型组织,提供匈牙利名词的词形、词素、特征值等信息,适用于语言学研究与自然语言处理任务。 文件详解 数据文件(CSV格式,共5个)...
-
Chestionar_Spaniola_西班牙语欧洲现状调查数据
数据集概述 本数据集包含一份关于西班牙语在欧洲现状的调查文档,涉及西班牙语的动态发展、回归现象、双语现象及近期 demolingvistice(可能指语言解构或相关语言学)方面的内容。数据集仅包含一个文件,无其他目录或文件结构。 文件详解 文件名称:Cuestionario_rumano.docx 文件格式:DOCX...
-
Mienic_lexical_isogloss_database
数据集概述 本数据集为Mienic语言词汇同言线数据库,包含已识别或潜在的Mienic语言变体词汇同言线相关信息,以单个Excel文件形式呈现,无目录结构和文件拆分,可用于语言变体的词汇特征分布研究。 文件详解 文件名称:Mienic_lexical_isogloss_database.xlsx 文件格式:XLSX...
-
AppendixA_Based_人称代词跨语言变异信息论研究数据
数据集概述 本数据集为论文附录A内容,包含来自语法资料的人称代词系统数据,用于支持人称代词跨语言变异的信息论研究,仅含一个文件。 文件详解 文件名称:appendixA.xlsx 文件格式:XLSX 字段映射介绍:文件为附录A的表格数据,具体字段未提供预览,推测包含与跨语言人称代词系统相关的语法资料内容。 数据来源 论文“They saw it,...
-
Rantanplan_Source_西班牙语文本韵律分析工具开发包
数据集概述 本数据集为西班牙语文本韵律分析工具Rantanplan的开发包,包含一个压缩文件,可用于西班牙语文本的韵律分析相关研究与工具开发。 文件详解 文件名称:rantanplan-develop.zip 文件格式:ZIP 字段映射介绍:压缩包内包含西班牙语文本韵律分析工具Rantanplan的开发相关文件,具体内容需解压后查看。 适用场景...
-
Holman_Wichmann_语言系统发育学标点变化限制研究数据
数据集概述 本数据集来自语言系统发育学研究,探讨语言进化是否存在标点式变化限制。研究对比生物进化的标点均衡与渐变论争议,通过复制先前研究并采用自动化语言分歧度测量及更大数据集,发现不同方法下标点均衡的支持情况存在差异。数据集含5个文件,用于相关语言学进化分析。 文件详解 文档文件(document_files):共3个,格式为.docx...
-
Romanian_Grammar_Based罗马尼亚语法问题数据集
数据集概述 本数据集包含罗马尼亚语法相关的问题数据,由2个文件组成,涵盖说明文档和语法问题解释数据,未划分训练/测试、数据/标签或原始/处理数据集,可用于语言学习与语法研究场景。 文件详解 说明文档 文件名称:README.md 文件格式:.md 字段映射介绍:包含数据集的许可信息(MIT协议)等说明内容 数据文件...
-
IN02038_Based_Chapagaon铭文梵语XML草案数据
数据集概述 本数据集为Chapagaon铭文(编号IN02038)的梵语XML文件,是待整合至“Siddham”档案的Epidoc格式草案版本,不含元数据。数据集仅包含1个XML文件,无目录层级划分,可用于古铭文数字化研究与文本分析。 文件详解 文件名称:IN02038.xml 文件格式:XML...
-
PHOIBLE_Online_Based_语音数据库数据_2014版
数据集概述 本数据集为PHOIBLE Online语音数据库2014版,由Steven Moran、Daniel McCloy和Richard Wright主编,包含全球语言的语音系统数据,是语言学领域研究语音多样性的基础资源,仅含一个压缩文件。 文件详解 文件名称:phoible-v2014.zip 文件格式:ZIP(压缩包)...
-
adpossessive_UDW_2020_领属结构类型学研究数据集
数据集概述 本数据集包含领属结构类型学研究的相关数据及脚本,源自Sinnemäki与Haakana 2020年发表于UDW 2020研讨会的论文。数据用于分析通用依存标注中的变体,聚焦领属结构的标记基类型学案例研究,可支持语言学与自然语言处理领域的相关研究。 文件详解 文件名称:udw2020-adpossessive-...
-
ELTeC_pol_Based_波兰小说语料库_2021年4月发布版
数据集概述 本数据集是ELTeC(欧洲文学文本集合)的波兰语小说语料库2021年4月发布版,包含100部波兰语小说。数据集支持欧洲文学远程阅读研究,由COST Action CA16204项目产出,所有文本均属于公有领域,可用于文学文本分析、语言研究等场景。 文件详解 文件名称:README.md 文件格式:MD...
-
IN01027_Based_Hiresakuna梵语授权文书数字化数据
数据集概述 本数据集为IN01027号Hireśakuna授权文书的梵语XML文件,记录了Mṛgeśavarman统治第八年的授权内容,未包含元数据。数据集仅含一个文件,用于古文献数字化保存与研究。 文件详解 文件名称:IN01027.xml 文件格式:XML...
-
Minspeech_Source_闽南语语音识别语料库数据v1_0_0
数据集概述 本数据集为闽南语方言语音识别语料库(Minspeech v1.0.0),包含用于自动语音识别的闽南语语音数据,整体以压缩包形式存储,未划分训练/测试集、数据/标签集及原始/处理数据,无额外目录层级。 文件详解 文件名称:Minspeech-1.0.0.zip 文件格式:ZIP...



