数据集 - 海数据

基尔南亚语言类型学数据库

2025年12月22日

数据集概述该数据库包含南亚地区42种语言（涵盖印欧、达罗毗荼等语系及孤立语言）的语言类型学特征数据，涉及语法、否定策略等230个特征，部分特征源自Grambank数据库，为语言学研究提供基础数据支持。文件详解文件名称: Kiel_Corpus_data.csv 文件格式: CSV 字段映射:...

ZIP

中文隐喻语料库

2025年12月21日

数据集概述该数据集为中文隐喻语料库，包含一个压缩文件，未提供训练/测试、数据/标签、原始/处理数据的划分，主要用于隐喻相关的自然语言处理研究与应用。文件详解文件名称: ChineseMetaphorCorpus-metaphor.zip 文件格式: ZIP（压缩文件）内容说明:...

ZIP

论文_Partitives类型学_数据集

2025年12月21日

数据集概述本数据集是语言学论文《Partitives类型学》的原始数据，包含论文全文及结构化数据文件，围绕不同语言中部分格的类型学特征展开，为研究语言部分格系统提供实证数据支持。文件详解文件名称: TypologyOfPartitives.pdf 文件格式: PDF (.pdf) 内容说明:...

ZIP

手势语言数据与分析

2025年12月21日

数据集概述本数据集是论文《The Language of Gesture: Data and Analysis》的补充材料，包含相关数据及R语言代码，以压缩包形式提供，为手势语言研究提供支持。文件详解文件名称: language_of_gesture_data_analysis.zip 文件格式: ZIP压缩包文件内容:...

ZIP

北京大学1964年汉语方言词汇CLDF数据集

2025年12月21日

数据集概述该数据集是基于北京大学1964年《汉语方言词汇》的CLDF格式数据集，包含汉语方言词汇相关内容，以压缩包形式存储，为方言词汇研究提供结构化数据支持。文件详解文件名称：lexibank/beidasinitic-v5.1.zip 文件格式：ZIP压缩包（.zip）...

ZIP

图皮_瓜拉尼语系系统发育分类CLDF数据集2021

2025年12月21日

数据集概述该数据集是基于2021年Gerardi和Reichert关于《图皮-瓜拉尼语系：系统发育分类》研究的CLDF格式数据，用于语言学领域中图皮-瓜拉尼语系的系统发育分析，为语系分类研究提供标准化数据支持。文件详解文件名称：gerarditupi-v2.1.zip 文件格式：ZIP压缩包（.zip）存储目录：lexibank/...

ZIP

基于Lieberherr和Bodt_科博瓦语比较词表_的CLDF数据集2017

2025年12月21日

数据集概述该数据集是基于2017年Lieberherr和Bodt研究的"科博瓦语比较词表"转换的CLDF格式数据集，包含科博瓦语核心词汇数据，支持语言比较与分类研究。文件详解文件名称：lexibank/lieberherrkhobwa-v2.1.zip 文件格式：ZIP压缩包...

ZIP

数据250种语言的否定并列连词数据库

2025年12月21日

数据集概述该数据集是针对250种语言样本构建的否定并列连词数据库，以PDF格式呈现，为语言类型学中否定结构的跨语言研究提供基础数据支持。文件详解文件名称: Database_of_negative_coordinators.pdf 文件格式: PDF (.pdf) 内容说明:...

ZIP

Lexibank透明复合词提取数据集

2025年12月21日

数据集概述本数据集为研究《Extracting Transparent Compounds from Lexibank》的配套代码与数据，用于从Lexibank中提取透明复合词，支持计算机辅助语言比较领域的相关分析。文件详解文件名称: extracting-compounds.zip 文件格式: ZIP (.zip) 文件内容:...

ZIP

可核查事实主张基准数据集

2025年12月21日

数据集概述该数据集为可核查事实主张的基准数据集，包含1960-2016年美国大选总统辩论中提取的陈述，以及人工标注的可核查性标签，将每条陈述分为非事实陈述、不重要事实陈述和可核查事实陈述三类。文件详解文件名称: ClaimBuster_Datasets.zip 文件格式: ZIP压缩包内容说明:...

ZIP

国家考试论文语料库_社交媒体中性别包容性语言使用的话语建构

2025年12月21日

数据集概述该数据集为国家考试论文的语料库，核心内容是社交媒体中性别包容性语言使用的话语建构研究。基于Telegram三个频道的完整聊天记录，通过SketchEngine工具分析，聚焦识别不同语言行动者对性别包容性语言的反对模式。文件详解文档文件（PDF格式，共6个）： Wortfrequenzanalyse 1...

ZIP

印地语文本宣传数据集2023_Prop_HiT

2025年12月21日

数据集概述本数据集是针对印地语文本的宣传检测数据集，包含来自三十二家印地语新闻网站的七百九十篇文章，采用人工标注方式标记十八种宣传技术。数据按训练集（五百五十篇）和测试集（二百四十篇）划分，为印地语宣传内容识别研究提供结构化标注数据。文件详解该数据集包含以下文件： - 压缩包文件: - Prop-HiT Dataset.zip:...

ZIP

查孔图卡诺语族注释斯瓦迪士词汇表CLDF数据集2017

2025年12月21日

数据集概述该数据集是基于查孔2017年发表的“图卡诺语族注释斯瓦迪士词汇表”转化的CLDF格式数据，包含图卡诺语族语言的词汇对比信息，为语言比较研究提供标准化数据支持。文件详解文件名称: lexibank/chaconcolumbian-v2.1.zip 文件格式: ZIP压缩包内容说明:...

ZIP

达罗毗荼语混合文本情感分析与冒犯性语言识别数据集2020

2025年12月21日

数据集概述该数据集为三种低资源达罗毗荼语（泰米尔语、卡纳达语、马拉雅拉姆语）与英语的混合社交媒体评论数据，包含六万余条YouTube评论，经人工标注用于情感分析和冒犯性语言识别，标注者间一致性较高，支持相关自然语言处理研究。文件详解文件名称: DravidianCodeMix-2020.zip 文件格式: ZIP压缩包内容说明:...

ZIP

德语历时词汇使用图谱数据集

2025年12月21日

数据集概述该数据集包含针对德语的历时词汇使用图谱（Diachronic Word Usage Graphs，WUGs），提供了词汇使用随时间变化的结构化数据。数据集以压缩包形式存储，可通过相关网站获取数据格式说明、处理代码及更多资源。文件详解文件名称: dwug_de.zip 文件格式: ZIP压缩包内容说明:...

ZIP

泰米尔语表情包恶意内容分类数据集

2025年12月20日

数据集概述本数据集是针对泰米尔语表情包的恶意内容分类资源，包含标注为“恶意”和“非恶意”的表情包图像，以及对应的拉丁转写文本，旨在支持印度语言表情包恶意内容的计算建模研究。文件详解文件名称: Tamil_troll_memes-dataset.zip 文件格式: ZIP压缩包内容说明:...

ZIP

南亚数字数据库衍生CLDF数据集2024

2025年12月20日

数据集概述该数据集是基于Mamta于2024年发布的“南亚数字数据库（SAND）”衍生的CLDF格式数据集，核心内容围绕南亚数字相关数据展开，以压缩文件形式存储，为研究南亚数字系统提供数据支持。文件详解文件名称: numeralbank/sand-v1.0.zip 文件格式: ZIP (.zip) 内容说明:...

ZIP

多义词中的隐喻句法分析数据集

2025年12月20日

数据集概述本数据集围绕多义词中的隐喻句法分析主题，包含一份核心文档，聚焦于探讨隐喻句法结构在多义词语境中的表现与分析方法，为相关语言研究提供文献资料支持。文件详解文件名称: Nilufar Kholmakhmadova.pdf 文件格式: PDF (.pdf) 文件内容: 该文档为多义词中的隐喻句法分析相关的研究文献，具体内容需通过阅读文档获取。...