CitySpeechMix语音与城市声音混合模拟数据集

本数据集是模拟音频数据集，将LibriSpeech的语音片段与SONYC-UST的环境录音混合，生成语音与背景噪声的受控混合数据。包含三百七十一条混合音频和三百七十一条无语音城市环境录音，每条音频时长十秒，附语音转录和环境声音类别标签。

压缩文件:
cityspeechmix.zip: 包含数据集核心内容，分为两个子文件夹
sonyc_librispeech_mixtures: 三百七十一条语音与城市背景噪声混合音频
sonyc_unmixed_subset: 三百七十一条峰值归一化的无语音城市环境录音
stems.zip: 包含混合音频的原始语音和背景声音源文件
元数据文件:
metadata.csv: CSV格式，字段包括音频文件名、SONYC文件关联、LibriSpeech文件关联、语音转录文本、SONYC声音类别标签、AudioSet对应标签等

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	881.43 MiB
最后更新	2025年12月7日
创建于	2025年12月7日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。