数据集概述
该语料库提供用于支持人机辅音识别对比(安静与噪声环境)的数据集。包含二十四名英语母语者(十二女、十二男)的语音数据,覆盖二十四个英语辅音在九种元音环境、两种重音类型下的发音,共一万零三百六十八个语音样本,适用于自动语音识别实验的训练、开发和测试。
文件详解
- 技术说明文件:
- readme.pdf: PDF格式的说明文档,可能包含语料库的技术细节、使用指南等背景信息。
- 语音/噪声波形文件:
- train.zip: 压缩文件,包含无噪声训练数据。
- test.zip: 压缩文件,包含七个测试集、感知测试练习项及MATLAB格式文件(标记语音样本在混合音频中的时间偏移)。
- test_binaural.zip: 压缩文件,包含双通道WAV文件(左声道为噪声,右声道为语音),对应测试集2-7(测试集1无噪声)。
- dev.zip: 压缩文件,包含开发集数据。
- dev_binaural.zip: 压缩文件,包含开发集的双通道版本。
- 音素分割数据文件:
- handsegm.91.mlf.txt: TXT格式文件,HTK格式的九十二个手动分割VCV样本数据(每个辅音至少三个相同元音上下文样本+十九个随机样本)。
- segmentation_training.mlf.txt: TXT格式文件,HTK格式的训练数据自动音素分割结果。
- segmentation_testsets.zip: 压缩文件,包含各测试集的自动音素分割结果(HTK格式)。
- 自动语音识别文件:
- asr.zip: 压缩文件,包含自动语音识别相关的脚本和模型文件。
适用场景
- 语音识别研究: 用于安静与噪声环境下人机辅音识别性能对比实验。
- 声学特征分析: 探究元音环境、重音类型对辅音发音特征的影响。
- 语音技术开发: 支持自动语音识别模型的训练、优化与测试。
- 语音感知研究: 分析人类对不同环境下辅音的感知规律与差异。