-
基尔南亚语言类型学数据库
数据集概述 该数据库包含南亚地区42种语言(涵盖印欧、达罗毗荼等语系及孤立语言)的语言类型学特征数据,涉及语法、否定策略等230个特征,部分特征源自Grambank数据库,为语言学研究提供基础数据支持。 文件详解 文件名称: Kiel_Corpus_data.csv 文件格式: CSV 字段映射:...
-
中文隐喻语料库
数据集概述 该数据集为中文隐喻语料库,包含一个压缩文件,未提供训练/测试、数据/标签、原始/处理数据的划分,主要用于隐喻相关的自然语言处理研究与应用。 文件详解 文件名称: ChineseMetaphorCorpus-metaphor.zip 文件格式: ZIP(压缩文件) 内容说明:...
-
论文_Partitives类型学_数据集
数据集概述 本数据集是语言学论文《Partitives类型学》的原始数据,包含论文全文及结构化数据文件,围绕不同语言中部分格的类型学特征展开,为研究语言部分格系统提供实证数据支持。 文件详解 文件名称: TypologyOfPartitives.pdf 文件格式: PDF (.pdf) 内容说明:...
-
手势语言数据与分析
数据集概述 本数据集是论文《The Language of Gesture: Data and Analysis》的补充材料,包含相关数据及R语言代码,以压缩包形式提供,为手势语言研究提供支持。 文件详解 文件名称: language_of_gesture_data_analysis.zip 文件格式: ZIP压缩包 文件内容:...
-
北京大学1964年汉语方言词汇CLDF数据集
数据集概述 该数据集是基于北京大学1964年《汉语方言词汇》的CLDF格式数据集,包含汉语方言词汇相关内容,以压缩包形式存储,为方言词汇研究提供结构化数据支持。 文件详解 文件名称:lexibank/beidasinitic-v5.1.zip 文件格式:ZIP压缩包(.zip)...
-
图皮_瓜拉尼语系系统发育分类CLDF数据集2021
数据集概述 该数据集是基于2021年Gerardi和Reichert关于《图皮-瓜拉尼语系:系统发育分类》研究的CLDF格式数据,用于语言学领域中图皮-瓜拉尼语系的系统发育分析,为语系分类研究提供标准化数据支持。 文件详解 文件名称:gerarditupi-v2.1.zip 文件格式:ZIP压缩包(.zip) 存储目录:lexibank/...
-
基于Lieberherr和Bodt_科博瓦语比较词表_的CLDF数据集2017
数据集概述 该数据集是基于2017年Lieberherr和Bodt研究的"科博瓦语比较词表"转换的CLDF格式数据集,包含科博瓦语核心词汇数据,支持语言比较与分类研究。 文件详解 文件名称:lexibank/lieberherrkhobwa-v2.1.zip 文件格式:ZIP压缩包...
-
数据250种语言的否定并列连词数据库
数据集概述 该数据集是针对250种语言样本构建的否定并列连词数据库,以PDF格式呈现,为语言类型学中否定结构的跨语言研究提供基础数据支持。 文件详解 文件名称: Database_of_negative_coordinators.pdf 文件格式: PDF (.pdf) 内容说明:...
-
Lexibank透明复合词提取数据集
数据集概述 本数据集为研究《Extracting Transparent Compounds from Lexibank》的配套代码与数据,用于从Lexibank中提取透明复合词,支持计算机辅助语言比较领域的相关分析。 文件详解 文件名称: extracting-compounds.zip 文件格式: ZIP (.zip) 文件内容:...
-
可核查事实主张基准数据集
数据集概述 该数据集为可核查事实主张的基准数据集,包含1960-2016年美国大选总统辩论中提取的陈述,以及人工标注的可核查性标签,将每条陈述分为非事实陈述、不重要事实陈述和可核查事实陈述三类。 文件详解 文件名称: ClaimBuster_Datasets.zip 文件格式: ZIP压缩包 内容说明:...
-
国家考试论文语料库_社交媒体中性别包容性语言使用的话语建构
数据集概述 该数据集为国家考试论文的语料库,核心内容是社交媒体中性别包容性语言使用的话语建构研究。基于Telegram三个频道的完整聊天记录,通过SketchEngine工具分析,聚焦识别不同语言行动者对性别包容性语言的反对模式。 文件详解 文档文件(PDF格式,共6个): Wortfrequenzanalyse 1...
-
印地语文本宣传数据集2023_Prop_HiT
数据集概述 本数据集是针对印地语文本的宣传检测数据集,包含来自三十二家印地语新闻网站的七百九十篇文章,采用人工标注方式标记十八种宣传技术。数据按训练集(五百五十篇)和测试集(二百四十篇)划分,为印地语宣传内容识别研究提供结构化标注数据。 文件详解 该数据集包含以下文件: - 压缩包文件: - Prop-HiT Dataset.zip:...
-
查孔图卡诺语族注释斯瓦迪士词汇表CLDF数据集2017
数据集概述 该数据集是基于查孔2017年发表的“图卡诺语族注释斯瓦迪士词汇表”转化的CLDF格式数据,包含图卡诺语族语言的词汇对比信息,为语言比较研究提供标准化数据支持。 文件详解 文件名称: lexibank/chaconcolumbian-v2.1.zip 文件格式: ZIP压缩包 内容说明:...
-
达罗毗荼语混合文本情感分析与冒犯性语言识别数据集2020
数据集概述 该数据集为三种低资源达罗毗荼语(泰米尔语、卡纳达语、马拉雅拉姆语)与英语的混合社交媒体评论数据,包含六万余条YouTube评论,经人工标注用于情感分析和冒犯性语言识别,标注者间一致性较高,支持相关自然语言处理研究。 文件详解 文件名称: DravidianCodeMix-2020.zip 文件格式: ZIP压缩包 内容说明:...
-
德语历时词汇使用图谱数据集
数据集概述 该数据集包含针对德语的历时词汇使用图谱(Diachronic Word Usage Graphs,WUGs),提供了词汇使用随时间变化的结构化数据。数据集以压缩包形式存储,可通过相关网站获取数据格式说明、处理代码及更多资源。 文件详解 文件名称: dwug_de.zip 文件格式: ZIP压缩包 内容说明:...
-
泰米尔语表情包恶意内容分类数据集
数据集概述 本数据集是针对泰米尔语表情包的恶意内容分类资源,包含标注为“恶意”和“非恶意”的表情包图像,以及对应的拉丁转写文本,旨在支持印度语言表情包恶意内容的计算建模研究。 文件详解 文件名称: Tamil_troll_memes-dataset.zip 文件格式: ZIP压缩包 内容说明:...
-
南亚数字数据库衍生CLDF数据集2024
数据集概述 该数据集是基于Mamta于2024年发布的“南亚数字数据库(SAND)”衍生的CLDF格式数据集,核心内容围绕南亚数字相关数据展开,以压缩文件形式存储,为研究南亚数字系统提供数据支持。 文件详解 文件名称: numeralbank/sand-v1.0.zip 文件格式: ZIP (.zip) 内容说明:...
-
多义词中的隐喻句法分析数据集
数据集概述 本数据集围绕多义词中的隐喻句法分析主题,包含一份核心文档,聚焦于探讨隐喻句法结构在多义词语境中的表现与分析方法,为相关语言研究提供文献资料支持。 文件详解 文件名称: Nilufar Kholmakhmadova.pdf 文件格式: PDF (.pdf) 文件内容: 该文档为多义词中的隐喻句法分析相关的研究文献,具体内容需通过阅读文档获取。...
-
瑞典历时词用法图数据集
数据集概述 本数据集包含针对瑞典语的历时词用法图(Diachronic Word Usage Graphs, WUGs),提供了瑞典语词汇使用随时间变化的结构化数据,可用于语言演变相关研究。 文件详解 文件名称: dwug_sv.zip 文件格式: ZIP压缩包 内容说明:...
-
班图语基本词汇数据库2015
数据集概述 该数据集是基于Greenhill和Gray 2015年的"班图语基本词汇数据库"构建的CLDF格式数据集,包含班图语系的基本词汇数据,为班图语语言研究提供支持。 文件详解 文件名称: lexibank/bantubvd-v4.1.zip 文件格式: ZIP 内容说明:...



