数据集概述
本数据集为json格式文件,包含用户与智能语音助手(IVA)在不同噪声场景下的对话内容,格式适配自Taskmaster数据集结构。数据以对话为核心单元,记录对话ID、场景类型、噪声等级及多轮 utterance 信息,可用于智能语音交互系统的鲁棒性分析与优化。
文件详解
- README.md
- 文件格式:Markdown
- 内容介绍:数据集说明文档,包含数据文件结构、对话及 utterance 字段定义等核心信息
- officedial_dataset.json
- 文件格式:JSON
- 字段映射介绍:
- 顶层:文件名字典与对话数组
- 对话属性:conversation_id(唯一ID)、scenario(场景类型:S1_A/S1_B/S2_A/S2_B/S3_A/S3_B)、noise(噪声等级:SILENCE/NON_VERBAL/VERBAL)、utterances( utterance 数组)
- utterance 字段:index(顺序索引)、speaker(角色:USER/ASSISTANT)、text(语音转录文本)
适用场景
- 智能语音助手鲁棒性测试: 分析不同噪声环境对人机对话交互质量的影响
- 对话系统场景适配优化: 针对S1至S3不同场景类型,优化对话流程与意图识别准确率
- 语音交互噪声抑制研究: 基于NON_VERBAL/VERBAL噪声数据,开发针对性的噪声抑制算法
- 多轮对话模型训练: 利用标注的角色与文本数据,训练多轮人机对话生成与理解模型