数据集 - 海数据

Álgu_Based_Ume_Saami词汇数据现代化拼写转换数据

2026年1月27日

数据集概述本数据集包含源自Schlachter 1958版Ume Saami词典的多版处理数据，从Álgu数据库获取并与原始词典核对词头变体，将词头机械转换为近似现代Ume Saami正字法（参考Barruk 2018）。提供字母化列表及反向字母化文件，含3个文件，支持词汇研究与语言保护。文件详解压缩文件（ume-MalaLpW-mod.zip）...

ZIP

srWac_Based_塞尔维亚_克罗地亚语重音标准动词发音数据库

2026年1月27日

数据集概述本数据集为塞尔维亚语标准塞尔维亚-克罗地亚语中3000个最常用动词的重音标注数据库，收录了来自尼什、博尔和扎耶查尔的四位重音标准使用者对每个动词的限定式和非限定式发音及重音位置标注，旨在呈现该语言的重音标准情况。文件详解文件名称：Stress_standard_Serbian_3000verbs.xlsx 文件格式：XLSX...

ZIP

adpossessive_UDW_2020_领属结构类型学研究数据集

2026年1月26日

数据集概述本数据集包含领属结构类型学研究的相关数据及脚本，源自Sinnemäki与Haakana 2020年发表于UDW 2020研讨会的论文。数据用于分析通用依存标注中的变体，聚焦领属结构的标记基类型学案例研究，可支持语言学与自然语言处理领域的相关研究。文件详解文件名称：udw2020-adpossessive-...

ZIP

Marian_Keyes_Based小说专有名词提取分析数据集2020

2026年1月23日

数据集概述本数据集为爱尔兰研究委员会资助的博士论文相关研究成果，分析了Marian Keyes1995-2020年出版的14部小说中的专有名词，包含角色名称等内容。虽结果无统计显著性未纳入最终论文，但可为其他研究者提供角色名称停用词表，支持远读方法分析。文件详解文件名称：An analysis of proper nouns in Marian...

ZIP

ELTeC_ukr_Based_乌克兰小说语料库2021年4月发布数据

2026年1月23日

数据集概述本数据集为ELTeC-ukr乌克兰小说语料库2021年4月发布版本，包含50部编码为1级的乌克兰小说。数据集共2个文件，无目录结构，主要文件类型为压缩包和说明文档，用于支持欧洲文学远程阅读研究。文件详解文件名称：README.md 文件格式：MD 字段映射介绍：包含语料库基本信息、贡献者列表、项目背景（COST Action...

ZIP

DravLex_Based_达罗毗荼语词汇数据库首版数据_v1_0_0

2026年1月22日

数据集概述本数据集为DravLex达罗毗荼语词汇数据库的首次发布版本，包含一个压缩文件，整体目录结构简洁，未划分训练/测试集、数据/标签集或原始/处理数据，无自述文件或内容预览，核心为达罗毗荼语词汇相关数据。文件详解压缩文件文件名称：Verkerk/DravLex-v1.0.0.zip 文件格式：ZIP...

ZIP

CLDF_Dataset_Kusunda语言250个概念词表数据2020

2026年1月22日

数据集概述本数据集为CLDF格式，源自Aaley和Bodt于2020年发布的《New Kusunda data: A list of 250 concepts》，包含Kusunda语言的250个概念词表信息，是语言比较研究的标准化数据资源，仅含一个压缩文件。文件详解文件名称：lexibank/aaleykusunda-v2.1.zip...

ZIP

Decesare_Based_堕胎立场实验研究_GPT模型生成预设分句数据

2026年1月21日

数据集概述本数据集为论文“Pro-life, neutral or pro-choice? An experimental study on informative presupposition clefts generated by GPT-3.5 and GPT-4o in Italian, French and...

ZIP

ParaKar_Based_Livvi_Karelian语音符号名词范式数据

2026年1月20日

数据集概述本数据集是基于VepKar数据库构建的Livvi Karelian名词范式集合，包含语音符号和正字法符号两种标记形式，符合Paralex标准，适用于计算分析和人工分析场景。数据集仅包含一个压缩文件。文件详解文件名称：1.0.2.zip 文件格式：ZIP 字段映射介绍：压缩包内包含Livvi...

ZIP

帕拉普兰库尼亚特贾语_基于皮詹塔贾拉语和扬库尼亚特贾语的方言_动词词库数据集

2026年1月20日

数据集概述本数据集为Pitjantjatjara/Yankunytjatjara语言的动词词库，包含动词形态、语音、词素等结构化信息，由墨尔本大学Sasha Wilmoth创建。数据涵盖动词形式表、语音表、词素表等11个文件，支持对该澳大利亚原住民语言动词系统的深入分析。文件详解数据文件（CSV格式，共7个）...

ZIP

Phlorest_Based_Pama_Nyungan语言系统发育分析数据集2012

2026年1月18日

数据集概述本数据集为基于Bowern & Atkinson 2012年研究的Phlorest系统发育树数据，核心内容是Pama-Nyungan语言的内部结构计算系统发育分析结果，用于支持语言演化和分类研究，数据集包含1个压缩文件。文件详解文件名称：phlorest/bowern_and_atkinson2012-v1.1.zip...

ZIP

曼布里诺数字图书馆_意大利骑士文学_第13卷第4册_希腊的斯费拉蒙迪_数字化版本数据

2026年1月18日

数据集概述本数据集是意大利骑士文学作品《13/4 Sferamundi di Grecia. Quarta parte》的数字化学术版本，包含转录与评注XML-TEI文件、多格式电子书及计算分析用纯文本文件，属于Mambrino数字图书馆项目，用于支持文学研究与数字化分析。文件详解转录与评注文件...

ZIP

曼布里诺数字图书馆_意大利骑士文学第13卷第1章_希腊的斯费拉蒙迪_数字学术版数据集

2026年1月18日

数据集概述本数据集为意大利骑士文学作品《13/1 Sferamundi di Grecia. Prima parte》的数字学术版本，包含转录与评注XML-TEI文件、多格式电子书及计算分析用纯文本文件，是Mambrino数字图书馆项目成果，用于支持骑士文学的数字化研究与文本分析。文件详解转录与评注文件...

ZIP

lexibank_Based_手语传播进化动力学研究CLDF数据集_v1_0_2

2026年1月15日

数据集概述本数据集是CLDF格式的压缩包文件，为研究“手语传播的进化动力学”提供支持。数据来自lexibank项目，包含1个压缩文件，未划分训练/测试集或原始/处理数据，整体结构简洁，便于语言学领域的相关研究使用。文件详解压缩文件文件名称：lexibank/powerma-v1.0.2.zip 文件格式：ZIP...

ZIP

ESRC_Paradigms_in_use_俄语名词语法功能屈折类文本频率研究数据

2026年1月15日

数据集概述本数据集由ESRC资助项目“Paradigms in use”创建，包含俄语名词相关的语法功能、屈折类及文本频率数据，以8个Excel表格形式存储，仅保留文本中出现至少5次的词位，排除低频次词位以避免统计误差。文件详解文件名称：paradigms-in-use-data.zip 文件格式：ZIP...

ZIP

SFB_table_Gothic_Based_哥特语配价类系统复杂度变异性限制数据

2026年1月14日

数据集概述本数据集围绕哥特语配价类系统复杂度的变异性限制展开，包含一份SFB项目相关的表格文件，聚焦哥特语语法中配价类系统的复杂度特征与变异性边界，为语言学领域关于哥特语语法系统的研究提供数据支持。文件详解文件名称：SFB_table_all_folders.xlsx 文件格式：XLSX...

ZIP

RefWUG_Based_德语历时参考词使用图数据_Version1_1_0_2021

2026年1月14日

数据集概述本数据集包含通过参考使用采样创建的德语历时词使用图（WUGs），版本为1.1.0，发布于2021年12月15日。数据用于分析德语词汇在不同时间语境下的语义变化，可通过WUGsite获取数据格式说明、处理代码及更多相关数据集，核心文件为压缩包形式。文件详解文件名称：refwug.zip 文件格式：ZIP（压缩包）...

ZIP

VeLePa_Verbal_Lexicon_of_Central_Pame动词词库数据

2026年1月14日

数据集概述本数据集为VeLePa，是一个包含中部帕梅语（Central Pame）动词屈折变化的词库，涵盖216个动词的词形变化范式，共12528个语音形式的提取词汇，并提供词形单元和词位的频率信息。中部帕梅语属于奥托曼盖语系，以其复杂的形态结构和四重并发分类系统（前缀、词干、声调重音、后缀均显示屈折类和不规则性）为特点，具有语言学研究价值。...

ZIP

Plotting_Poetry_Based_芬兰语鲁诺诗歌韵律变异计算研究数据集2021

2026年1月13日

数据集概述本数据集为论文配套的代码与数据压缩包，用于研究芬兰语鲁诺诗歌传统中的韵律变异，探索计算方法在该领域应用的挑战与可能性。数据集包含相关研究所需的代码与数据资源，支持对鲁诺诗歌韵律特征的量化分析。文件详解压缩包文件文件名称：sarv-et-al-2021-plotting-poetry.zip 文件格式：ZIP...

ZIP

Global_Wordnet_Conference_30种语言物体命名比较研究数据2025

2026年1月13日

数据集概述本数据集是论文“Everybody Likes to Sleep: A Computer-Assisted Comparison of Object Naming Data from 30 Languages”的配套数据与代码，包含30种语言的物体命名数据，用于支持多语言物体命名的计算机辅助比较研究。数据集以压缩包形式提供，无目录层级结构。...

ZIP

找到197个数据集

注册成功！