找到16,243个数据集

标签: 自然语言处理

过滤结果
  • 色彩情感关联数据集ColorEmoNet

    2025年11月27日   

    数据集概述 本数据集基于色彩理论的基本概念构建,旨在探索色彩与情感之间的关联关系。数据集包含一个压缩文件,专为研究色彩心理学和情感映射设计,适用于分析不同色彩对情感表达的影响。数据以压缩包形式提供,未包含训练/测试划分或原始/处理数据划分。 文件详解 文件名称: ColorEmoNet/ColorEmoNet.zip 文件格式: ZIP 字段映射介绍:...
    packageimg
  • 口语语篇说服策略数据分析

    2025年11月27日   

    数据集概述 本数据集围绕口语语篇中的说服策略展开分析,核心内容为丹泽尔·华盛顿于2015年5月9日在迪拉德大学毕业典礼上发表的《Put God First》和《Fall Forward》两篇演讲的语料库,包含18段研究分析用的摘录内容。 文件详解 文件名称: Corpus.pdf 文件格式: PDF 内容说明:...
    packageimg
  • 纽约时报实体关系对齐数据集2005_2007

    2025年11月27日   

    数据集概述 该数据集基于2005-2006年纽约时报语料库的句子,通过Freebase实体进行对齐作为训练数据;2007年语料库句子作为测试数据。包含52种常见关系及无关系的NA类,提供训练与测试阶段的句子、实体对及关系事实数据,存储为压缩文件。 文件详解 文件名称:NYT/nyt.zip 文件格式:ZIP压缩包...
    packageimg
  • 印地语词袋情感分析数据集

    2025年11月27日   

    数据集概述 该数据集围绕印地语词袋模型情感分析主题构建,核心包含传达积极或消极情感的词语集合,为印地语文本情感分析相关研究提供基础词汇资源。 文件详解 印地语词袋情感分析/positive sentiment words.docx:DOCX格式文档,内容为传达积极情感的印地语词语 印地语词袋情感分析/negative sentiment...
    packageimg
  • 约旦方言与错误现代阿拉伯语句子及标准阿拉伯语对应数据集

    2025年11月27日   

    数据集概述 该数据集包含五万九千一百三十五个文本序列,涵盖约旦方言和含错误的现代标准阿拉伯语(MSA)句子,每个序列对应无变音符号和全变音符号的标准MSA修正版本,用于阿拉伯语自然语言处理研究。 文件详解 数据集文件(位于Dataset/目录下):...
    packageimg
  • 低资源语言监督式词义消歧数据集_Tattbabadhana

    2025年11月27日   

    数据集概述 该数据集为低资源语言设计,包含基于"监督"(Tattbabadhana)方法的词义消歧(WSD)相关数据,以单一压缩文件形式存储,未提供具体拆分信息。 文件详解 文件名称: Tattbabadhana/nasiruddinetalTaln2015.tgz 文件格式: TGZ压缩文件(.tgz) 内容说明:...
    packageimg
  • 专利问题_解决方案与优势语句黄金数据集

    2025年11月27日   

    数据集概述 该数据集包含两类专利相关数据:一是经人工标注(技术问题、解决方案、优势效果)的黄金集,二是用于模型评估的随机专利测试数据,为专利文本信息抽取研究提供标注基准与测试资源。 文件详解 文件名称: Test Data.csv 文件格式: CSV 核心字段:...
    packageimg
  • Dataset_5A_8_翻译后修饰系统稳健性与参数地理认证文件_σ_1_第8部分

    2025年11月27日   

    数据集概述 本数据集为翻译后修饰系统稳健性与参数地理研究的认证文件,包含σ=1.0时Paramotopy运行认证解决方案的复合输出文件,基于σ=5.0下VEGAS采样参数点生成,共72个无扩展名文件,用于支持相关系统的参数分析。 文件详解 该数据集包含一个目录下的72个无扩展名文件,具体说明如下: - 目录名称: Dataset 5A.8...
    packageimg
  • IV_NLP因果方法理解深度学习模型行为数据集

    2025年11月27日   

    数据集概述 本数据集是论文《IV-NLP: A Methodology to understand the behavior of DL models and its Application from a Causal...
    packageimg
  • 黄_2021_形态标记选择数据集

    2025年11月27日   

    数据集概述 该数据集为黄(2021)关于形态标记选择的研究提供数据支持,核心内容围绕韩语形态标记选择相关数据展开,以Excel格式存储,未包含训练/测试、数据/标签或原始/处理等数据拆分结构。 文件详解 文件名称: dataset_for_morphological_marker_choice_in_Korean.xlsx 文件格式: Excel...
    packageimg
  • 语言隔阂_官方语言与问责制_补充材料

    2025年11月27日   

    数据集概述 本数据集为论文《语言隔阂:官方语言与问责制》的补充材料,包含该论文提交至《制度经济学杂志》时的附录内容,涵盖补充材料及稳健性检验相关信息。 文件详解 文件名称:Supplementary Material.pdf 文件格式:PDF 内容说明:包含论文《语言隔阂:官方语言与问责制》的补充材料及稳健性检验内容,具体字段未提供预览信息 适用场景...
    packageimg
  • 利什曼原虫婴儿株GPI12蛋白信息数据集

    2025年11月27日   

    数据集概述 该数据集包含利什曼原虫婴儿株(Leishmania infantum)中N-乙酰-D-乙酰氨基葡萄糖基磷脂酰肌醇脱乙酰酶(GPI12)蛋白的基础信息,通过单个文本文件呈现关键属性及分类数据。 文件详解 文件名称: LINF_090005500.txt 文件格式: TXT(文本文件) 字段映射: 标识符:...
    packageimg
  • 自闭症谱系障碍语境数据

    2025年11月27日   

    数据集概述 本数据集是配合Harry R.M. Purser作为第一作者的《自闭症谱系障碍(ASD)患者言语幽默加工中语境的作用》一文的辅助数据,聚焦ASD群体言语幽默加工与语境的关系,为相关研究提供数据支持。 文件详解 文件名称: Riddles ASD for web.sav 文件格式: .sav(SPSS数据格式) 字段映射:...
    packageimg
  • imbWBI_多语言网络商业实体分类_实验资源数据集

    2025年11月27日   

    数据集概述 该数据集包含多语言网络商业实体分类研究的辅助实验报告、配置文件等资源,支撑开源商业实体分类系统的结果复现,涉及语义云构建、特征向量提取、分类算法评估等核心研究内容。 文件详解 配置优化过程文件夹:含系统优化实验相关资源 通用资源文件夹: 语义云图形渲染文件(黑白、彩色两种版本,如UnifiedSemanticCloud.jpg)...
    packageimg
  • 基于Cloninger理论的思维平面测量完整数据集

    2025年11月27日   

    数据集概述 本数据集是基于Robert Cloninger理论构建的人类思维平面测量数据集。研究团队首先使用Cloninger理论对字典中最常用的1万个单词进行标注,确定每个单词的主导思维平面,并以这些单词作为基准对句子进行标注。数据集包含从Collins...
    packageimg
  • 极化案例研究数据集

    2025年11月27日   

    数据集概述 该数据集为极化现象相关的案例研究数据,包含6个文件,涵盖.csv和.gml两种格式,主要记录网络关系、群体归属等信息,为分析不同场景下的极化现象提供基础数据支持。 文件详解 CSV格式文件(共4个):...
    packageimg
  • MOOC课程视频讲稿嵌入与主题向量数据集

    2025年11月27日   

    数据集概述 本数据集包含从Coursera平台收集的两千门课程、一万两千零三十二个视频讲稿生成的词嵌入和文档主题分布向量。通过Python的Gensim包实现Word2Vec和LDA技术,分别生成不同维度的词嵌入及主题向量,为MOOC内容的文本分析提供基础数据。 文件详解 该数据集由两个目录下的CSV文件组成,具体说明如下: - Word...
    packageimg
  • 表情符号对后续文本的情感影响数据集

    2025年11月27日   

    数据集概述 本数据集围绕表情符号对后续文本的情感影响展开,包含材料收集、实验流程及实验数据(原始数据与分析用数据),为研究表情符号对文本情感表达的作用提供基础数据支持。 文件详解 该数据集包含一个压缩文件,具体说明如下: - 文件名称: The Emotional Impact of Emojis on Subsequent Texts/Data...
    packageimg
  • 学术群体内偏见_作者与期刊隶属关系关联实证检验数据集

    2025年11月27日   

    数据集概述 本数据集围绕学术群体内偏见展开,核心内容为国际关系领域四本期刊发表文章的相关数据,旨在实证检验作者与期刊隶属关系之间的关联,为该主题研究提供数据支撑。 文件详解 文件名称:dataset_12_2_2017.dta 文件格式:.dta(Stata数据格式) 内容说明:包含四本国际关系期刊发表文章的相关数据,具体字段信息未提供预览 适用场景...
    packageimg
  • Android跟踪数据标注工具集

    2025年11月27日   

    数据集概述 本数据集是一个用于Android设备跟踪数据标注的完整工具集,包含数据采集工具包和数据标注脚本。数据采集工具包可用于生成研究数据,而标注脚本则利用预训练的命名实体识别模型对Android设备的文本跟踪数据(如logcat日志)进行用户动作标注。数据集共包含49个文件,涵盖工具脚本、训练模型、样本数据等多个组件。 文件详解...
    packageimg