数据集概述
本数据集为非母语英语学习者语音数据集,包含15名非母语英语学习者的语音录音,总时长74分钟,每人60条音频样本。数据源自大学课程项目,采用Audio-Technica ATM75麦克风在录音棚录制,刺激语句来自Artie Bias Corpus,8名参与者提供句子级对齐数据,配套元数据含学习者语言背景信息。
文件详解
- 文件名称:metadata.xlsx
- 文件格式:XLSX
- 字段映射介绍:以参与者ID为索引,包含母语、英语水平、语言学习历史等语言学背景元数据
- 文件名称:raw.zip
- 文件格式:ZIP
- 字段映射介绍:按参与者ID组织的原始语音录音文件,含15名参与者的未对齐音频样本
- 文件名称:sentence-aligned-audios.zip
- 文件格式:ZIP
- 字段映射介绍:8名参与者的句子级对齐语音文件,提供音频与文本的对应关系
数据来源
Zenodo平台(DOI:10.5281/zenodo.12525952)
适用场景
- 第二语言语音习得研究: 分析非母语学习者的语音特征、发音模式与语言背景的关联
- 语音识别模型训练: 用于构建针对非母语英语语音的识别系统,优化模型鲁棒性
- 语言教学评估工具开发: 基于学习者语音数据与元数据,设计英语水平评估指标
- 语音对齐技术验证: 利用8名参与者的对齐数据,测试或改进语音-文本对齐算法
- 口音变异分析: 研究不同母语背景学习者的英语口音特征及变异规律