-
印欧语系词汇同源数据库及系统发育树数据集2021
2025年12月5日 30 20 4
数据集概述 该数据集提供印欧语系词汇同源关系数据及贝叶斯系统发育树样本,基于IELex数据库(Dunn et al. 2011)构建,包含词汇条目、概念映射、系统发育分析文件等,可支持印欧语系演化关系的比较研究,是原IELex网站下线后的替代数据资源。 文件详解 数据集包含多个文件,具体说明如下: - 核心数据文件(位于data/目录): -...
-
跨语言共现数据库LOGOS数据集1_0
2025年12月5日 30 8 1
数据集概述 该数据集为跨语言共现数据库(CLICS)的LOGOS数据版本1.0,由List等人于2014年发布,记录跨语言词汇共现现象,为语言比较研究提供基础数据支持。 文件详解 文件名称: lexibank/logos-v4.0.zip:压缩文件格式,包含跨语言共现数据库的LOGOS数据,具体字段需解压后查看,未提供预览内容。 数据来源 List,...
-
早期现代拉丁炼金术印刷品语料库数据集_EMLAP
2025年12月5日 30 143 51
数据集概述 本数据集记录早期现代拉丁炼金术印刷品语料库,包含精选数字转录样本、元数据目录、带自动形态标注的句子数据、词形还原句子及预处理脚本,用于自动隐喻检测等文本分析研究。 文件详解 文件名称: CCS-ZCU/EMLAP_ETL-v0.5.zip 文件格式: ZIP压缩包 包含内容:...
-
西班牙主要政党Twitter毒性水平分析数据集2015_2023
2025年12月5日 30 125 22
数据集概述 该数据集聚焦2015至2023年西班牙主要政党在Twitter平台的内容分析,核心为各政党相关推文的毒性水平研究,提供该主题的研究材料压缩包。 文件详解 文件名称:Analizando los niveles de toxicidad de los principales partidos politicos españoles en...
-
世界语言前缀后缀偏好自动提取数据集2021
2025年12月4日 30 85 2
数据集概述 本数据集为2021年SIGTYP会议论文《Measuring Prefixation and Suffixation in the Languages of the World》的配套数据,包含全球语言中前缀与后缀偏好的自动提取数据,为语言形态学研究提供支持。 文件详解 psst2021mrt.tab:...
-
广告文本词序认知特征数据集
2025年12月4日 30 134 37
数据集概述 该数据集聚焦广告文本中词序的认知特征,包含一份PDF格式的文档,为研究广告文本词序设计的认知规律提供数据支持。 文件详解 文件名称: Pazilov Ma’mirjon Sabirdjanovich.pdf 文件格式: PDF (.pdf) 文件类型: 文档文件 内容说明: 该文件为数据集的核心内容载体,具体内容未提供字段映射信息 适用场景...
-
基于Sagart等人2019年汉藏语词汇同源词数据库的CLDF数据集
2025年12月4日 30 56 9
数据集概述 该数据集是基于Sagart等人2019年发布的"汉藏语词汇同源词数据库"转换而来的CLDF格式数据集,主要用于汉藏语系语言的词汇同源关系研究,为语言比较和历史语言学分析提供结构化数据支持。 文件详解 文件名称: lexibank/sagartst-v2.1.zip 文件格式: ZIP (.zip) 文件内容:...
-
Torlak动词特征标注数据集
2025年12月4日 30 185 40
数据集概述 本数据集为Torlak方言动词特征标注数据库,包含从《口语Torlak方言语料库1.0》提取的3085个动词,标注了第三人称单数现在时、阴性单数分词、主题元音类、派生后缀及词根异形等核心形态句法特征,还补充了第三人称复数现在时、不定过去时、未完成体等互补数据集。 文件详解 该数据集包含主数据集及四个互补数据集,具体说明如下: - 主数据集:...



