-
英语_马拉地语翻译数据集
2026年3月5日 30 141 2
英语_马拉地语翻译数据集_English_to_Marathi_Translation_Dataset 数据来源:互联网公开数据 标签:机器翻译, 语言学, 文本数据, 翻译模型, 自然语言处理, 语料库, 英语, 马拉地语 数据概述: 该数据集包含英语到马拉地语的翻译对,记录了英语句子及其对应的马拉地语翻译。主要特征如下:...
-
罗马尼亚方言语音识别数据集
2026年3月5日 30 167 152
罗马尼亚方言语音识别数据集_Romanian_Dialect_Speech_Recognition_Dataset 数据来源:互联网公开数据 标签:语音识别, 方言识别, 罗马尼亚语, 声学特征, 机器学习, 语音信号处理, 声音分类, 语言学 数据概述: 该数据集包含来自罗马尼亚不同地区的语音数据,旨在用于罗马尼亚方言的语音识别与分析。主要特征如下:...
-
北萨米语广播字幕语料库_2021_2024
2026年2月1日 30 143 106
数据集概述 本数据集为北萨米语YLE Areena字幕语料库,包含2021年3月31日至2024年11月15日期间从YLE Sápmi广播收集的北萨米语字幕句子,涵盖完整句子、句子ID及来源元数据,可用于北萨米语语言研究与资源开发。 文件详解 文件名称:sami_subtitles.json 文件格式:JSON...
-
IDS_Based_Kalamang语言词典数据_存档
2026年2月9日 30 200 60
数据集概述 本数据集为Kalamang语言的IDS(Intercontinental Dictionary Series)词表,由Eline Visser于2021年编纂,收录于《洲际词典系列》。数据以压缩包形式提供,包含Kalamang语言的词汇资源,是研究该语言及相关语言学领域的基础资料。 文件详解 文件名称:intercontinental-...
-
swadesh_Source_库尔曼吉语斯瓦迪士核心词表数据
2026年2月8日 30 163 67
数据集概述 本数据集为库尔曼吉语(Kurmanji)的斯瓦迪士核心词表数据,包含一个压缩文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理数据集,主要用于语言学领域的词汇研究与分析。 文件详解 压缩文件 文件名称:swadesh-V1.1.zip 文件格式:ZIP...
-
BMSatire_Based语料库语言学分析数据_附文档
2026年1月30日 30 50 42
数据集概述 本数据集包含BMSatire Descriptions语料库的分析数据及相关文档,属于英国学术院资助项目“Curatorial Voice: legacy descriptions of art objects and their contemporary uses”的成果。语料库源自M. Dorothy...
-
Efeoglu_Ozcan_隐喻与符号研究数据集
2026年2月1日 30 104 68
数据集概述 本数据集围绕隐喻与符号主题展开,包含一份文档文件,旨在为相关研究提供基础资料。数据集结构简单,无复杂目录层级,主要文件为文档格式,可用于隐喻与符号领域的研究与分析。 文件详解 文件名称:Efeoglu-Ozcan_Paper_M&S.docx 文件格式:DOCX...
-
Kpelle_Mano_语半自发话语标注论文补充数据
2026年1月31日 30 206 132
数据集概述 本数据集为待评审论文的补充材料,包含Kpelle语和Mano语的半自发话语标注内容,提供一份结构化的语言数据文件,支持相关语言学研究与分析。 文件详解 文件名称:all_data_submission.xlsx 文件格式:XLSX...
-
La_Pola_Siero_西班牙地图第三问方言语料数据
2026年1月30日 30 74 60
数据集概述 本数据集包含与“西班牙地图:第三问”相关的La Pola Siero方言语料,核心为1个docx格式文件,无目录结构及数据拆分,聚焦方言相关内容的记录与呈现。 文件详解 文件名称:Mapa de España.Pregunta3.docx 文件格式:docx 字段映射介绍:无明确字段划分,为单一文档文件,内容围绕“西班牙地图:第三问”的La...
-
CLDF_Based_南美低地语言比较词表数据集2024
2026年1月30日 30 2 0
数据集概述 本数据集为CLDF格式,源自Blum等人2024年的研究,包含用于探究南美低地语言间远亲关系的比较词表。数据以压缩包形式存储,可支持语言亲缘关系分析、词汇比较研究等应用。 文件详解 压缩包文件 文件名称:pano-tacanan-history/blumpanotacana-v1.2.zip 文件格式:ZIP...
-
WOLD_Based_古爱尔兰借词数据库_6_9世纪AD
2026年1月30日 30 19 11
数据集概述 本数据集为基于古爱尔兰文本构建的借词数据库,文本涵盖公元6-7世纪至9世纪的古爱尔兰文献,参考世界借词数据库(WOLD)的1456个通用词含义(分24类),收录借词、非借词及未证实词汇,共包含2个文件。 文件详解 文件名称:Jasmim Drigo_Old Irish loans.csv 文件格式:CSV...
-
CLDF_Ivani_Suansu基础词汇数据集2019
2026年1月30日 30 137 117
数据集概述 本数据集是基于Ivani 2019年关于印度东北部藏缅语族语言Suansu的基础词汇研究形成的CLDF格式数据集,核心内容为Suansu语言的基础词汇信息,为语言研究提供结构化资源。 文件详解 文件名称:lexibank/ivanisuansu-v2.0.zip 文件格式:ZIP...
-
梵蒂冈教皇文件的语料库语言学分析_1967年至2020年
2026年1月30日 30 54 1
数据集概述 本数据集是对1967至2020年梵蒂冈教宗通谕、宗座劝谕和世界传播日致辞的语料库语言学分析结果。包含两个阶段:先是通过软件识别量化大众媒体与新媒体技术相关术语,后深入研究“媒体”术语的演变,包括相关动词的筛选、分类及伦理特征分析。 文件详解 文件名称:Papal Communication - WCD Messages - Media-...
-
La_Pola_Siero_西班牙地图_问题4_语料数据
2026年1月30日 30 147 143
数据集概述 本数据集包含与“西班牙地图:问题4”相关的语料数据,源自La Pola Siero地区的语言材料,以单一文档形式呈现,未进行训练/测试、数据/标签或原始/处理等类型的划分。 文件详解 文件名称:Mapa de España.Pregunta4.docx 文件格式:DOCX...
-
Ihanzu_ELAR_词汇诱导会话修改版音频处理教程数据
2026年1月30日 30 10 5
数据集概述 本数据集为Andrew Harvey开展的3次Ihanzu词汇诱导会话的修改版本,原始数据来自濒危语言档案库(ELAR)。数据已重采样为16 kHz单声道16位PCM格式,适用于音频处理教程,包含3个文件,可通过Zenodo获取。 文件详解 文件名称:ihanzu-harvey-0596_20180518opq.zip 文件格式:ZIP...
-
S6_Data_Swahili焦点小组讨论转录本匿名化数据
2026年1月29日 30 63 49
数据集概述 本数据集包含匿名化处理的斯瓦希里语焦点小组讨论(FGD)转录本,基于S4 Data分析并选择性翻译用于结果部分引用。数据为单一文档文件,用于社会科学或语言研究场景下的定性分析参考。 文件详解 文件名称:S6 Data. FGDs transcripts.docx 文件格式:DOCX...
-
Parabank_Based_黎巴嫩亲属称谓范式标注完整数据
2026年1月29日 30 127 68
数据集概述 本数据集为Parabank项目中按亲属称谓范式标注的黎巴嫩亲属称谓数据,记录了符合该范式的黎巴嫩亲属称谓信息,可用于语言学领域中亲属称谓系统的研究,仅包含一个文件。 文件详解 文件名称:Parabank_Lebanese.xlsx 文件格式:XLSX...
-
Kessler_Based_词表显著性统计分析数据集2001
2026年1月29日 30 136 49
数据集概述 本数据集基于Kessler 2001年的研究《The Significance of Wordlists》构建,属于CLDF格式数据集。核心内容围绕词表的统计显著性分析展开,包含一个压缩文件,用于支持词表相关的统计研究与分析工作。 文件详解 压缩文件...
-
eWAVE_Based_英语变体电子世界地图集数据集2013
2026年1月29日 30 117 87
数据集概述 本数据集为《英语变体电子世界地图集》(eWAVE 2.0)的归档文件,由Kortmann与Lunkenheimer主编,2013年发布于马克斯·普朗克进化人类学研究所。数据包含英语变体相关内容,以压缩包形式提供,支持语言研究领域对全球英语变体的分析与参考。 文件详解 文件名称:ewave-v2013.zip 文件格式:ZIP(压缩归档文件)...
-
Saami_Based萨米语始动动词衍生类型表格数据_附录版
2026年1月29日 30 149 50
数据集概述 本数据集为萨米语始动动词研究的附录表格,记录各萨米语中基础动词衍生的始动动词类型及出现情况。基础动词以原始萨米语形式呈现,并附有芬兰语近似释义,包含一个Excel文件,是萨米语动词形态学研究的核心参考数据。 文件详解 文件名称:inkoatiivien-koonti.xlsx 文件格式:XLSX...



