NUBUC_Based_语境控制口语故事语料库数据

数据集概述

本数据集为NyU-BU语境控制故事语料库(NUBUC),是兼顾自然性与实验可控性的口语语料库。包含8个独特故事的16段高质量录音,由男女演员各录制一遍,每故事含128句约2000词,围绕关键词构建,关键词在多语言维度匹配,语境参数(先验/局部语境强弱、句子位置早晚)被操控。

文件详解

  • 文件名称:public.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含NUBUC语料库的核心内容,具体字段需解压后查看,推测包含录音文件、故事文本、关键词标注及语境参数说明等与口语故事及实验控制相关的材料。

适用场景

  • 语言实验刺激材料开发:为语言认知、心理语言学等实验提供兼具外部效度与内部控制的标准化口语刺激材料。
  • 语境对语言加工影响研究:利用关键词的语境参数(先验/局部语境强弱、句子位置),探究不同语境条件下的语言理解机制。
  • 口语语料库对比分析:对比现有语料库,研究NUBUC在控制与泛化平衡上的设计优势及应用价值。
  • 自然口语处理研究:基于自然主义口语录音,开展语音识别、韵律分析等自然语言处理任务。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 377.14 MiB
最后更新 2026年1月31日
创建于 2026年1月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。