-
斯拉夫形态句法地理与接触配置关联数据集
数据集概述 本数据集为论文《斯拉夫形态句法主要由其地理位置和接触配置决定》的原始数据,包含与斯拉夫语言形态句法特征相关的指标数据,涉及语言属性、地理区域、人称标记等维度,支持相关语言特征与地理及接触因素关联的研究。 文件详解...
-
CLDF数据集_基于Bodt2019年西部Kho_Bwa语言词汇同源词研究
数据集概述 该数据集为CLDF格式,基于Bodt2019年关于西部Kho-Bwa语言词汇同源词的研究,包含1个压缩文件,无训练测试或原始处理数据划分,无README或内容预览,主要用于历史音韵学领域的比较方法预测能力测试。 文件详解 文件名称: lexibank/bodtkhobwa-v3.3.zip 文件格式: .zip(压缩文件) 内容说明:...
-
世界语言结构地图集在线版2014
数据集概述 本数据集为2014年7月发布的《世界语言结构地图集在线版》压缩包,包含全球语言结构特征的相关数据,是研究语言多样性与类型学的重要资源。 文件详解 文件名称: wals3-v2014.2.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含《世界语言结构地图集在线版》2014年版本的相关数据文件,具体内容需解压后查看 数据来源 Max...
-
探索声音象征进化动力学论文相关代码
数据集概述 本数据集包含与论文《Exploring the evolutionary dynamics of sound symbolism》相关的代码文件,以压缩包形式存储,为复现论文研究或深入理解声音象征进化动力学的技术实现提供支持。 文件详解 文件名称: sound-symbolism-cogsci2024.zip 文件格式: .zip(压缩包)...
-
dinG语料库AMR标注数据集
数据集概述 本数据集是采用抽象意义表示(AMR)标注的dinG语料库,dinG语料库由Boritchev和Amblard于2022年提出,包含语料库的数据声明和标注指南,为语义分析相关研究提供标注资源。 文件详解 文件名称: ding-01.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
-
Gigatrue斯洛伐克语抽象摘要数据集
数据集概述 本数据集为合成Gigaword数据集的斯洛伐克语翻译版本,基于Gigatrue数据集通过SeamlessM4T-v2工具翻译生成,专注于抽象摘要任务,为斯洛伐克语文本摘要研究提供数据支持。 文件详解 文件名称: Gigatrue Slovak abstractive summarisation dataset.pdf 文件格式: PDF...
-
佐科威学位问题社交媒体集群分析数据集
数据集概述 本数据集包含2025年4月27日至29日期间,印尼社交媒体平台X上关于佐科威学位问题的1014条匿名推文。数据涵盖原始文本、预处理结果及K-Means聚类生成的主题标签,为研究印尼社会政治议题的公众舆论动态提供支持。 文件详解 文件名称: tiamufh/DatasetIsuIjazahJokowi-v1.1.zip 文件格式:...
-
中国方言历史系统发育网络建模研究补充材料
数据集概述 本数据集为论文《Using Phylogenetic Networks to Model Chinese Dialect History》的配套补充材料,包含支持该研究的详细辅助内容,为理解中国方言历史的系统发育网络建模提供补充信息。 文件详解 数据集包含一个PDF格式的文档文件,具体如下: - 文件名称:supplemental.pdf...
-
基于Kitchen等人2009年闪米特语言贝叶斯系统发育分析的CLDF数据集
数据集概述 本数据集是基于Kitchen等人2009年发表的《闪米特语言的贝叶斯系统发育分析》研究生成的CLDF格式数据集,核心内容为闪米特语言的系统发育分析相关数据,支持语言演化研究。 文件详解 文件名称:lexibank/kitchensemitic-v2.0.zip 文件格式:ZIP压缩包(.zip)...
-
德语历时词用法图发现数据集
数据集概述 该数据集包含针对德语的历时词用法图(WUGs)发现数据。词用法日期对应语料库时间段中点(1800-1899、1946-1990),非文档精确日期,为德语词汇语义变化研究提供数据支持。 文件详解 文件名称: discowug.zip:该文件为压缩包格式,内部包含德语历时词用法图的相关数据。具体字段及结构需解压后查看,数据格式未提供预览信息。...
-
生而为女_文学文本性别分类数据集
数据集概述 本数据集是研究论文《生而为女:基于个体化方法分析文学文本中性别分类的案例研究》的基础数据,包含文学文本性别分类相关的节点、边数据及可视化文件,支持文学文本中性别表征的网络分析。 文件详解 数据集包含99个文件,按类型分为以下四类: - CSV格式数据文件(59个): -...
-
意大利情感词典Sentix数据集
数据集概述 本数据集为意大利语情感词典Sentix的压缩文件,包含一个情感词典相关的压缩包,可用于意大利语文本的情感分析相关研究与应用。 文件详解 文件名称: valeriobasile/sentix-v3.0.zip 文件格式: ZIP压缩包(.zip) 文件内容: 压缩包内包含Sentix意大利语情感词典相关数据,具体内容需解压后查看 适用场景...
-
DUPS_历时用法对相似性数据集
数据集概述 该数据集包含英语单词不同时期用法对的相似性判断,以及基于此构建的历时词用法图(WUG版本),用法节点间的边权重由人工标注的语义邻近度决定,为词汇语义变化分析提供支持。 文件详解 文件名称: DUPS.zip:压缩文件格式,包含不同时期英语单词用法对的相似性判断数据 文件名称: DUPS-...
-
AUTOTYP_Database_1_1_1_Based_语言类型学研究数据完整集合
数据集概述 该数据集是AUTOTYP大型研究项目的成果,聚焦语言类型学的定量与定性研究。此版本包含AUTOTYP数据库的完整原始数据、元数据、聚合数据集及聚合脚本,版本为1.1.1,主要优化了MaximallyInflectedVerbSynthesis数据集的CLDF导出功能。 文件详解 文件名称: autotyp-data-v.1.1.1.zip...
-
词长n的死亡周期集数据集
数据集概述 该数据集包含词长n的死亡周期集数据,基于周期集谱系树算法生成。谱系树以长度1的唯一周期集为根,深度n节点代表长度n的周期集,无子女的节点为死亡周期集,同时存在永不死亡的周期集。 文件详解 文件名称: dying.1-99.zip 文件格式: ZIP (.zip) 内容说明:...
-
德语短语结构与元音松紧度交互作用声学与发音研究数据集
数据集概述 该数据集是研究“德语短语结构与元音松紧度交互作用”的声学与发音学研究配套数据,包含实验数据文件和分析脚本,支持对德语语音结构与元音特征关系的定量分析。 文件详解 文本数据文件(.txt格式,共5个): di.txt、mono.txt:包含语音标注数据,字段示例有labels、start、end、utts、subject等时间与对象信息...
-
欧洲文学文本集合2021年4月版
数据集概述 本数据集为2021年4月发布的欧洲文学文本集合(ELTeC)1.1.0版本,包含十四种欧洲语言的小说集合,其中八种语言的小说数量达一百部,总计超过一千二百部小说,为欧洲文学远程阅读研究提供多语言文本资源支持。 文件详解...
-
黑人命也是命_BLM_推特语料库2010_2022
数据集概述 该数据集是围绕黑人命也是命(BLM)运动的大规模推特语料库,覆盖2010-2022年期间的相关推文,总量超五千万条。同时包含“所有生命都重要”和“蓝命也重要”的平行语料库,为研究社会运动相关的社交媒体讨论提供全面数据支持。 文件详解 Twitter blue_lives_matter...
-
皮质动力学中语法类别涌现的计算理论数据集
数据集概述 本数据集围绕“皮质动力学中语法类别涌现的计算理论”研究构建,包含训练模型的语料库、语法解析输出、语法标签、词类别信息及模型测试结果等文件,为探索语法类别在皮质动力学中的涌现机制提供数据支持。 文件详解 语料库与解析文件: Corpora.txt(.txt格式):训练模型的语料库,源自wiki-...
-
ChatGPT对Vetala故事问题的响应数据集2023
数据集概述 该数据集包含2023年5月前两周收集的ChatGPT(GPT-4与GPT-3.5)对Vetala故事问题的响应数据。故事选自Arthur W. Ryder改编的《Twenty-Two Goblins》及N.M. Penzer版本,用于探索AI的困境解决与心理化能力,为相关研究提供数据支持。 文件详解 文件名称:...



