-
基于Key与Comrie_洲际词典系列_的CLDF数据集2023
数据集概述 本数据集是基于Key与Comrie主编的《洲际词典系列》转换而来的CLDF格式数据集,收录了语言词典相关数据,为语言比较研究提供结构化数据支持。 文件详解 文件名称:intercontinental-dictionary-series/ids-v4.3.zip 文件格式:.zip(压缩包)...
-
Twitter仇恨言论检测与分析数据集
数据集概述 该数据集包含用于Twitter仇恨言论检测与分析研究的两个语料库:2017年2月至12月收集的200万条原始推文,以及6000条标注是否包含仇恨内容的推文,为相关研究提供数据支持。 文件详解 文件名称:labeled_corpus_6K.txt 文件格式:TXT(.txt)...
-
乌克兰十四音节诗在白俄罗斯诗歌中的翻译与模仿韵律数据集
数据集概述 本数据集围绕乌克兰十四音节诗在白俄罗斯诗歌中的翻译与模仿韵律展开,包含舍甫琴科乌克兰语原作及白俄罗斯语译本、库帕拉等白俄罗斯诗人原作的文本、元数据、统计报告及分析代码,为研究诗歌韵律跨语言传播提供支持。 文件详解 文本文件(压缩包):...
-
鲁图尔方言基础词汇数据集2025
数据集概述 该数据集是基于Alekseeva等人2025年《鲁图尔方言地图集》衍生的CLDF格式数据,包含鲁图尔方言的基础词汇信息,以压缩文件形式存储,为鲁图尔方言研究提供数据支持。 文件详解 文件名称: lexibank/rutulbasiclexicon-v0.2.zip 文件格式: .zip(压缩文件) 内容说明:...
-
世界语言数字系统数据集2019
数据集概述 该数据集基于Chan的研究成果,收录了世界各语言的数字系统相关信息,为研究语言数字系统的多样性和特征提供基础数据支持。 文件详解 文件名称: numeralbank/channumerals-v1.0.2.zip 文件格式: ZIP (.zip) 内容说明: 压缩包文件,包含与世界语言数字系统相关的数据集内容,具体字段及结构需解压后查看...
-
Skirgård_Grambank_Based_语言语法特征分析完整数据
数据集概述 本数据集为Grambank v1.0版本,是一个与语言语法特征相关的数据库。相关研究论文将发表于《Science Advances》,旨在揭示谱系约束对语言多样性的重要性,并强调语言流失的影响。 文件详解 文件名称: grambank/grambank-v1.0.3.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
-
乌拉尔语系基础词汇及同源词与借词信息数据集
数据集概述 该数据集提供乌拉尔语系的基础词汇数据,包含同源词与借词相关信息,可用于分析语言间的词汇借用模式及结构特征,为语言学研究提供支持。 文件详解 文件名称: lexibank/uralex-v2.0.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含乌拉尔语系基础词汇数据,具体字段及结构需解压后查看原始文件 适用场景...
-
西班牙语小说语料库2021_04
数据集概述 该数据集是2021年4月发布的西班牙语小说语料库(ELTeC-spa),包含八十三个按一级标准编码的小说。数据集由元数据文件、说明文档和压缩包组成,为欧洲文学文本研究提供结构化的西班牙语小说资源。 文件详解 metadata.csv(CSV格式):包含西班牙语小说的元数据信息,字段包括id(语料库编号)、author-...
-
EvoBib历史语言学文献数据库与引语集1_8_0
数据集概述 该数据集是面向历史语言学的文献数据库与引语集,包含四千五百六十四条计算机辅助语言比较相关文献,以及从五千零六十三条文献中提取的八千三百六十四条引语。引语按关键词组织,支持全文与关键词检索,为相关研究提供文献与引语资源。 文件详解 文件名称: evobib-1.8.0.zip 文件格式: ZIP压缩包 内容说明:...
-
新几内亚语言数据库衍生数据集2015
数据集概述 本数据集是基于Greenhill于2015年发布的"TransNewGuinea.org"数据库生成的CLDF格式数据集,核心内容围绕新几内亚语言相关数据展开,为语言研究提供结构化数据支持。 文件详解 文件名称: lexibank/transnewguineaorg-v3.2.zip 文件格式: ZIP压缩包 内容说明:...
-
罗曼语动词屈折数据集2_0_0
数据集概述 该数据集为罗曼语动词屈折数据集2.0.0,覆盖73种罗曼语变体,提供基于宽式IPA音位符号的动词范式形式,按同源关系组织词位与范式单元,补充拉丁语范式并以CLDF格式发布,支持语言演变研究与语言学假设验证。 文件详解 文件名称: v2.0.4.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
-
基于众包的新闻偏见分析与检测多维数据集
数据集概述 本数据集包含九千篇涉及乌克兰危机的新闻文章中的两千零五十七句内容,由众包工作者对新闻偏见本身及隐藏假设、主观性、表征倾向三个维度进行标注,总计四万四千五百四十七个标签,为新闻偏见的分析与检测研究提供多维标注数据支持。 文件详解 文件名称: all-data-as-json.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
-
印欧语系词汇同源数据库及系统发育树数据集2021
数据集概述 该数据集提供印欧语系词汇同源关系数据及贝叶斯系统发育树样本,基于IELex数据库(Dunn et al. 2011)构建,包含词汇条目、概念映射、系统发育分析文件等,可支持印欧语系演化关系的比较研究,是原IELex网站下线后的替代数据资源。 文件详解 数据集包含多个文件,具体说明如下: - 核心数据文件(位于data/目录): -...
-
跨语言共现数据库LOGOS数据集1_0
数据集概述 该数据集为跨语言共现数据库(CLICS)的LOGOS数据版本1.0,由List等人于2014年发布,记录跨语言词汇共现现象,为语言比较研究提供基础数据支持。 文件详解 文件名称: lexibank/logos-v4.0.zip:压缩文件格式,包含跨语言共现数据库的LOGOS数据,具体字段需解压后查看,未提供预览内容。 数据来源 List,...
-
分歧程度标注数据集
数据集概述 该数据集包含从Reddit平台收集的五千条评论,由Amazon Mechanical Turk众包工作者基于五种分歧程度(辱骂、人身攻击、矛盾、反驳论点、驳斥)进行标注,最终结果汇总为disagreement_dataset.csv文件,为分歧类型分析提供标注数据支持。 文件详解 数据文件(共21个.csv格式文件):...
-
早期现代拉丁炼金术印刷品语料库数据集_EMLAP
数据集概述 本数据集记录早期现代拉丁炼金术印刷品语料库,包含精选数字转录样本、元数据目录、带自动形态标注的句子数据、词形还原句子及预处理脚本,用于自动隐喻检测等文本分析研究。 文件详解 文件名称: CCS-ZCU/EMLAP_ETL-v0.5.zip 文件格式: ZIP压缩包 包含内容:...
-
缅语族语言词汇数据机器可读集合
数据集概述 本数据集包含缅语族语言的词汇列表,大部分词汇已按WordNet进行语义标准化,全面整合了已发表的缅语族语言数据,为缅语族语言词汇研究提供机器可读的基础数据支持。 文件详解 压缩文件集合: burmish.list.zip:词汇列表压缩文件 burmish.table.zip:表格形式的词汇数据压缩文件...
-
短语动词的解读问题数据集
数据集概述 本数据集围绕短语动词的解读问题展开,核心内容为相关主题的文档资料,为理解短语动词解读难点提供支持。 文件详解 文件名称: Shahlo Kamalova.pdf 文件格式: PDF (.pdf) 文件内容: 包含关于短语动词解读问题的文档资料 适用场景 语言学研究: 分析短语动词的语义特征与解读障碍 英语教学应用:...
-
西班牙主要政党Twitter毒性水平分析数据集2015_2023
数据集概述 该数据集聚焦2015至2023年西班牙主要政党在Twitter平台的内容分析,核心为各政党相关推文的毒性水平研究,提供该主题的研究材料压缩包。 文件详解 文件名称:Analizando los niveles de toxicidad de los principales partidos politicos españoles en...
-
罗曼语族体貌转换初步研究补充材料数据集
数据集概述 本数据集是《罗曼语族体貌转换初步研究》论文的补充材料,包含两项实验研究的相关文件,涉及法语、意大利语和罗马尼亚语三种罗曼语族语言,为探究不同无定代词引发体貌转换的能力及跨语言表现提供实验数据支持。 文件详解 实验数据文件(CSV格式):...



