CitySpeechMix语音与城市声音混合模拟数据集

数据集概述

本数据集是模拟音频数据集,将LibriSpeech的语音片段与SONYC-UST的环境录音混合,生成语音与背景噪声的受控混合数据。包含三百七十一条混合音频和三百七十一条无语音城市环境录音,每条音频时长十秒,附语音转录和环境声音类别标签。

文件详解

  • 压缩文件:
  • cityspeechmix.zip: 包含数据集核心内容,分为两个子文件夹
  • sonyc_librispeech_mixtures: 三百七十一条语音与城市背景噪声混合音频
  • sonyc_unmixed_subset: 三百七十一条峰值归一化的无语音城市环境录音
  • stems.zip: 包含混合音频的原始语音和背景声音源文件
  • 元数据文件:
  • metadata.csv: CSV格式,字段包括音频文件名、SONYC文件关联、LibriSpeech文件关联、语音转录文本、SONYC声音类别标签、AudioSet对应标签等

数据来源

  • LibriSpeech
  • SONYC-UST v2

适用场景

  • 语音匿名化系统研发
  • 鲁棒性自动语音识别(ASR)模型训练
  • 含语音背景下的城市声音分类研究
  • 音频降噪算法性能评估
  • 环境声音与语音交互影响分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 881.43 MiB
最后更新 2025年12月7日
创建于 2025年12月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。