找到16,243个数据集

标签: 自然语言处理

过滤结果
  • 双语者错误记忆数据集

    2025年11月27日   

    数据集概述 本数据集是Bianca V. Gurrola与Wendy S. Francis同名投稿手稿的配套数据,围绕双语者错误记忆展开,包含实验1和实验2的相关资料,涵盖实验材料、参与者个体数据及汇总数据,用于支持手稿中的假设、方法与结果分析。 文件详解 该数据集包含多个目录和文件,具体说明如下: - 实验材料文件: - Expt 1 & 2...
    packageimg
  • 德语学习儿童方言与非方言环境下熟悉词效应远程测试数据集

    2025年11月27日   

    数据集概述 本数据集围绕德语学习儿童(12-24个月)在方言与非方言环境下的熟悉词效应展开,包含实验刺激音频与原始数据,用于研究输入语言变异性对儿童词汇识别能力的影响。 文件详解 该数据集包含2个目录,共17个文件,具体说明如下: - Dataset/目录: -...
    packageimg
  • 乌兹别克语命名实体识别数据集

    2025年11月27日   

    数据集概述 该数据集为乌兹别克语命名实体识别模型的训练与评估构建了人工标注语料库,包含2000个句子(25865个单词),采用BIOES方案标注实体边界与类型,经乌兹别克语专家审核确保准确性,适用于自然语言处理模型开发。 文件详解 文件名称: courpusNER.xlsx 文件格式: Excel (.xlsx) 内容说明:...
    packageimg
  • 可持续与循环建筑术语数据集

    2025年11月27日   

    数据集概述 该数据集基于Scopus数据库480篇学术论文,通过自然语言处理技术分析建筑业中“可持续性”与“循环经济”的关系,提取并对比两类概念的通用及独特术语,为研究两者在资源利用、环境影响等维度的异同提供数据支持。 文件详解 文件名称: SC_CE_papers_terms_data.rar 文件格式: RAR压缩包(.rar) 内容说明:...
    packageimg
  • 翻译后的蛋白质翻译后修饰系统参数地理数据集4D_2_σ1_03125_第一部分

    2025年11月27日   

    数据集概述 本数据集是对蛋白质翻译后修饰系统参数地理数据集4D.2(σ=1.03125,第一部分)的翻译内容,包含32个文件,涉及σ=1.03125_michaelis-menten_N4_log_posreal_run3等不同参数组合的日志文件,用于呈现该系统参数地理的相关信息。 文件详解 核心文件:...
    packageimg
  • 乌兹别克语数学术语及词性标注数据集

    2025年11月27日   

    数据集概述 该数据集为乌兹别克语数学领域的术语与词汇集合,包含858个独特词汇,每个词汇标注有五个数学领域的权重系数、英文翻译及词性信息,可用于数学语言相关研究。 文件详解 数据集文件(位于Dataset of Mathematical Terminology and words with/目录下): Dataset for...
    packageimg
  • 大型语言模型在多项选择题线索检测中的应用数据集

    2025年11月27日   

    数据集概述 该数据集围绕大型语言模型在多项选择题线索检测中的应用展开,包含研究所需的原始数据、模型性能对比图表、提示词文档及问题集,支持探究语言模型对题目线索的识别能力与答题表现。 文件详解 Raw Data Set.xlsx:Excel格式文件,为研究分析提供原始数据集 Mean cue detection performance per...
    packageimg
  • 摩洛哥双语儿童现代标准阿拉伯语第一语言习得中的空主语与显性主语研究

    2025年11月27日   

    数据集概述 本数据集围绕摩洛哥双语儿童在现代标准阿拉伯语第一语言习得过程中的空主语与显性主语现象展开研究,包含相关主题的文档资料,为语言习得领域的研究提供数据支持。 文件详解 文件名称: null.docx 文件格式: DOCX 存储位置: 位于 "Null and Overt Subjects in the Acquisition of Modern...
    packageimg
  • 香港爆水管基础设施故障依赖与利益相关者识别附录数据集

    2025年11月26日   

    数据集概述 本数据集为通过新闻挖掘识别基础设施故障依赖关系及相关利益相关者的研究附录文件,以香港爆水管事件为案例,包含新闻收集与清洗、领域知识组件、信息提取验证及故障规则结果等相关数据。 文件详解 文件名称:Appendix I_News collected & cleansed.xlsx,文件格式:.xlsx,内容:收集并清洗后的新闻数据...
    packageimg
  • 阿尔巴尼亚语社交媒体评论人工标注情感分析数据集2020

    2025年11月26日   

    数据集概述 本数据集包含2020年3月12日至8月31日期间,从科索沃国家公共卫生研究所(NIPHK)官方Facebook页面收集的阿尔巴尼亚语社交媒体评论,共10,132条,每条含12个属性,用于情感分析研究。 文件详解 该数据集由根目录和raw_data子目录组成,具体文件说明如下: - 根目录文件: -...
    packageimg
  • 单词整体加工的半球不对称性研究_A_SDT数据集

    2025年11月26日   

    数据集概述 该数据集包含单词整体加工的半球不对称性研究相关的A-SDT数据,以Excel格式存储,为探究大脑半球在单词整体加工过程中的不对称性提供数据支持。 文件详解 文件名称: Hemisphere asymmetry in holistic processing of words-A-SDT.xlsx 文件格式: .xlsx 内容说明:...
    packageimg
  • 语言学术语数据集

    2025年11月26日   

    数据集概述 该数据集包含语言学术语相关内容,以单个Excel文件形式存储,未提供文件内容预览,整体结构简单,无训练测试、数据标签或原始处理数据的划分。 文件详解 文件名称: LT.xlsx 文件格式: Excel (.xlsx) 内容说明: 未提供文件内容预览,无法获取具体字段或数据详情 适用场景 语言学基础研究:...
    packageimg
  • 隐喻理解实验行为反应完整数据集

    2025年11月26日   

    数据集概述 本数据集包含隐喻理解心理学实验的行为反应数据,主要记录参与者在隐喻理解任务中的准确率和反应时间。数据集由两个Excel文件组成,分别存储实验的行为结果数据和实验刺激材料,为研究隐喻认知加工机制提供基础实验数据支持。 文件详解 Metaphor Comprehension_Dataset.xlsx(隐喻理解数据集) 文件格式:XLSX...
    packageimg
  • 多模态文本意义建构数据集

    2025年11月26日   

    数据集概述 该数据集包含印度公立学校两类阅读困难学生对漫画和YouTube两种多模态文本的理解得分,以及这些学生的词汇丰富度测量数据,为研究阅读困难群体的多模态文本理解能力提供支持。 文件详解 该数据集包含一个Excel格式的文件,具体说明如下: - 文件名称: DATA-MAKING MEANING IN MULTIMODAL TEXTS.xlsx...
    packageimg
  • 大语言模型归因偏差研究数据集

    2025年11月26日   

    数据集概述 该数据集围绕大语言模型(LLMs)的归因偏差展开,包含一项受控实验的研究数据。实验涉及两种事件类型、两种归因视角、四种社会属性及基于提示的干预措施,覆盖ChatGPT与四款主流中文模型共五个LLM。 文件详解 文件名称:Attribution Bias in LLMs/Research Data.zip 文件格式:ZIP压缩包(.zip)...
    packageimg
  • 孟加拉语情感数据集

    2025年11月26日   

    数据集概述 该数据集是经过整理的孟加拉语情感文本集合,聚焦近期热门话题,数据来源包括孟加拉国在线报纸、社交媒体平台和博客,涵盖多种语言风格与情感表达,每条数据标注有正面、负面或中性标签,为孟加拉语情感分析研究提供资源。 文件详解 文件名称: Sentiment dataset.xlsx,文件格式: XLSX 内容:...
    packageimg
  • 孟加拉国反歧视学生运动平衡情感数据集_Echoes_of_Equity

    2025年11月26日   

    数据集概述 该数据集为孟加拉国反歧视学生运动相关的平衡情感数据集,包含3164条标注文本,覆盖积极(1015条)、消极(1082条)、中性(1067条)三类情感,通过数据扩展与重新标注确保内容全面性与准确性。 文件详解 文件名称: EchoesOfEquityDataset.xlsx 文件格式: XLSX 内容说明:...
    packageimg
  • 库尔德语网络欺凌数据集

    2025年11月26日   

    数据集概述 该数据集是首个针对库尔德语的网络欺凌数据集,包含中立、种族主义、性别歧视三类标注信息。数据源自Twitter API收集的库尔德语消息,经人工标注分类,涵盖超30,000条消息,三类数据分布大致均衡,为库尔德语网络欺凌研究提供基础资源。 文件详解 文件名称: cyberdataset.xlsx 文件格式: XLSX 内容说明:...
    packageimg
  • 孟加拉语情感常识知识库_BanglaKBase

    2025年11月26日   

    数据集概述 本数据集是专为孟加拉语概念开发的结构化情感常识知识库,包含30,000个标注概念,每个概念关联情感属性(主/次情绪)、极性标签与得分,以及5个语义相关术语,支持孟加拉语文本的情感分析与情感感知计算任务。 文件详解 文件名称: BanglaKBase.txt 文件格式: TXT (.txt) 字段映射:...
    packageimg
  • KanuriSenti_卡努里语情感词汇标注完整数据集

    2025年11月26日   

    数据集概述 本数据集是一个专门针对卡努里语(Kanuri)构建的情感分析数据集。研究团队首先利用PanLex词库和Manga卡努里语词典编译基础词汇表,随后与约贝州立大学、迈杜古里大学及当地社区的母语者合作,验证并扩展词汇条目,收集短文本,最终构建了包含情感标注的综合性语料库。数据集进一步对高频情感词汇进行了效价、唤醒度和优势度的情感评分,形成e-...
    packageimg