-
东道主球队概念多语言语料数据集2019
数据集概述 本数据集包含2019年国际冰球联合会(IIHF)冰球世锦赛期间,德、英、俄三种语言媒体报道中表达“东道主球队”概念的语料库,数据来源于三国主流媒体网页文章。 文件详解 文件名称:TEAM OF HOST COUNTRY - GERMAN 2019.pdf,格式:PDF,内容:2019年德国媒体报道中关于东道主球队概念的德语语料...
-
NoRaRe_Based_数据整理模板标准化完整数据集
数据集概述 该数据集提供了用于NoRaRe数据整理的模板集合,是对原始NoRaRe仓库的镜像,当前包含少量模板,使用方法可参考相关研究文献。 文件详解 文件名称:norare-template-v0.1.zip 文件格式:ZIP(.zip) 内容说明:压缩包内包含用于NoRaRe数据整理的模板文件,具体字段及结构需解压后查看,原数据集未提供预览内容...
-
基于Satterthwaite_Phillips2011年藏缅语系语言系统发育推断的CLDF数据集
数据集概述 该数据集是基于Satterthwaite-Phillips2011年关于藏缅语系语言系统发育推断的研究生成的CLDF格式数据集,包含相关语言演化分析的核心数据,为藏缅语系语言分类研究提供支持。 文件详解 文件名称:lexibank/satterthwaitetb-v4.0.zip 文件格式:ZIP压缩包...
-
自动化摘要分类与信息提取多模型框架研究数据与代码
数据集概述 本数据集为研究论文配套的公开资源,包含自动化摘要分类与信息提取多模型框架的相关数据与代码。核心内容围绕摘要干预分类、参与者数量提取两大任务展开,提供LLM推理结果、分析代码及评估标准数据,支持论文研究结果的复现与扩展。 文件详解 该数据集以ZIP压缩包形式存储,包含以下核心目录和文件: - 主目录文件: -...
-
CLICS1_0数据库底层数据集
数据集概述 该数据集为原始CLICS数据库的底层数据,由四个来源整合而成。现提供此数据以方便用户快速访问,因CLICS 1.0已被新版CLICS²数据库取代。数据包含LingPy库规范的原始词表格式和CLDF格式,支持在CLICS²新API中复用。 文件详解 文件名称: clics1-1.1.zip 文件格式: ZIP压缩包 内容说明:...
-
MTrill项目句法启动实验数据集
数据集概述 该数据集包含三十名巴西葡萄牙语使用者参与句法启动实验的匿名数据。实验分为基线阶段和启动阶段,记录了参与者在翻译任务及图片描述任务中使用的句子结构(介词短语或名词短语)、启动效应、累积指标及英语水平测试成绩等信息。 文件详解 该数据集由多个文件组成,具体说明如下: - 核心数据文件: -...
-
Glottolog数据库5_2_1_CLDFF格式数据集
数据集概述 该数据集为Glottolog数据库5.2.1版本的CLDF格式归档文件,包含语言研究相关数据,由Max Planck Institute for Evolutionary Anthropology发布,可通过指定链接获取。 文件详解 文件名称: glottolog-cldf-v5.2.1.zip 文件格式: ZIP压缩包 内容说明:...
-
形态句法区分的不确定性与变异性测量评估补充材料
数据集概述 本数据集是《语言类型学》期刊相关论文的补充材料,围绕形态句法区分的三个核心问题(边界强度、构成、架构),提供研究使用的原始数据及统计分析(相关矩阵、随机森林、聚类验证)的代码与结果文档,支撑方法论问题的探讨。 文件详解...
-
乌德穆尔特语空间格变化研究数据集
数据集概述 本数据集包含乌德穆尔特语空间格(源格:离格、出格;目标格:入格、终格)变化的人工标注数据及配套R分析代码,用于研究地标属性、动词形式等变量对格选择的影响,支持相关语言现象的定量分析。 文件详解 该数据集包含数据文件、R代码文件及文档,具体如下: - 数据文件(CSV格式):共6个,用于分析空间格选择的影响因素 -...
-
Radich大正藏佛教文本语料库
数据集概述 该数据集为基于CBETA数字化版本的中文佛教大正藏文本语料库,经Michael Radich修改以反映当前学术共识的文本历史事实,同时适配文本分析工具TACL及其图形界面(GUI)使用。 文件详解 文件名称: Radich Taisho corpus.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
-
欧洲文学文本语料库英文小说数据集2021
数据集概述 该数据集是欧洲文学文本语料库(ELTeC)的英文小说部分,2021年4月发布,包含100部英文小说的TEI XML源文件,由COST Action项目构建,为欧洲文学远程阅读研究提供支持。 文件详解 文件名称: README.md 文件格式: Markdown (.md) 内容:...
-
跨语言共现词数据库CLICS3
数据集概述 该数据集为CLICS3(跨语言共现词数据库第三版),包含跨语言词汇共现现象的相关数据,支持对跨语言多义性的可重复分析,为语言学领域研究词汇语义关联提供数据基础。 文件详解 文件名称: clics3-v1.1.zip 文件格式: ZIP (.zip) 内容说明:...
-
西班牙国家图书馆19世纪末文化杂志数据集_CORSMAXIX
数据集概述 本数据集收录西班牙国家图书馆藏1898-1899年间三种19世纪末西班牙文化杂志的48期内容,包含短篇故事、诗歌、评论及社会政治散文,覆盖西班牙政治文化转型关键时期,为人文社科领域的计算分析提供丰富语料支持。 文件详解 索引文件(CSV格式): CORSMAXIX_la_vida_literaria_index.csv:《La vida...
-
意大利语动词情感推理词典
数据集概述 本数据集是用于情感推理的意大利语动词词典,包含动词的句法框架、极性、语义效果、关系及示例等信息,部分动词通过同义词框架引用关联,为意大利语文本的情感分析提供结构化动词语义标注支持。 文件详解 文件名称: clicl.pdf 文件格式: PDF 内容说明: 提供数据集理论背景与构建方法的相关论文,解释动词规范的理论基础。 文件名称:...
-
FinCog_芬语同源词Paralex数据集
数据集概述 本数据集是芬语(Finnic)同源词的Paralex数据集一致性对照表,整合了爱沙尼亚语、芬兰语、利沃尼亚语、利维卡里利亚语四种芬语的Paralex屈折词典数据,支持对屈折结构的定量比较分析。 文件详解 文件名称: 1.0.0-alpha1.zip 文件格式: ZIP压缩包 内容说明:...
-
瑞典语计算词使用图数据集2_0_0
数据集概述 该数据集包含针对瑞典语的计算词使用图(Word Usage Graphs, WUGs),通过计算语义邻近模型自动标注使用对(边权重),可支持瑞典语词汇语义分析相关研究。 文件详解 文件名称:swewug_2.0.0.zip 文件格式:ZIP压缩包 内容说明:压缩包内包含瑞典语计算词使用图数据,具体数据格式及处理代码可参考WUGsite获取...
-
加泰罗尼亚语和西班牙语词汇简化与复杂度预测数据集
数据集概述 本数据集包含加泰罗尼亚语和西班牙语的词汇简化与复杂度预测数据,是MLSP多语言词汇简化管道数据集的一部分,曾用于BEA教育应用NLP创新研讨会的MLSP共享任务,支持词汇复杂度评估与简化研究。 文件详解 加泰罗尼亚语测试数据压缩包:Catalan_Test.zip,ZIP格式,包含加泰罗尼亚语测试用词汇简化与复杂度预测数据...
-
古东斯拉夫宪章语料库补充材料1
数据集概述 该数据集为古东斯拉夫宪章语料库的补充材料1,包含12世纪末至14世纪上半叶来自斯摩棱斯克、波拉茨克和诺夫哥罗德的9份历史法律文本。文本经预处理、人工分词后整合为单字符串,同时附数据声明文档,支持基于语料库的语言距离测量与聚类分析。 文件详解 文本文件(.txt格式,共9个):...
-
CLICS_4跨语言共现数据库
数据集概述 本数据集为CLICS 4跨语言共现数据库(版本0.5),是一个改进后的跨语言共现研究数据库。该数据库聚焦于不同语言中词汇共现现象的收集与整理,为跨语言词汇关系、语义演变等研究提供结构化数据支持。 文件详解 文件名称:clics/clics4-v0.5.zip 文件格式:.zip(压缩包) 内容说明:包含CLICS...
-
情感表达短语单位类型构建数据集
数据集概述 本数据集包含一份关于情感表达短语单位类型构建的文档,聚焦于情感类短语单位的类型学研究,为相关语言学分析提供资料支持。 文件详解 文件名称: Azimbayeva D.A..pdf 文件格式: PDF (.pdf) 文件内容: 文档围绕情感表达短语单位的类型构建展开,具体内容需查看PDF原文获取 适用场景...



