数据集

AnglistikVoices_Based_第二语言英语学习者语音数据集v1_0_0

数据集概述

本数据集为非母语英语学习者语音数据集，包含15名非母语英语学习者的语音录音，总时长74分钟，每人60条音频样本。数据源自大学课程项目，采用Audio-Technica ATM75麦克风在录音棚录制，刺激语句来自Artie Bias Corpus，8名参与者提供句子级对齐数据，配套元数据含学习者语言背景信息。

文件详解

文件名称：metadata.xlsx
文件格式：XLSX
字段映射介绍：以参与者ID为索引，包含母语、英语水平、语言学习历史等语言学背景元数据
文件名称：raw.zip
文件格式：ZIP
字段映射介绍：按参与者ID组织的原始语音录音文件，含15名参与者的未对齐音频样本
文件名称：sentence-aligned-audios.zip
文件格式：ZIP
字段映射介绍：8名参与者的句子级对齐语音文件，提供音频与文本的对应关系

数据来源

Zenodo平台（DOI:10.5281/zenodo.12525952）

适用场景

第二语言语音习得研究: 分析非母语学习者的语音特征、发音模式与语言背景的关联
语音识别模型训练: 用于构建针对非母语英语语音的识别系统，优化模型鲁棒性
语言教学评估工具开发: 基于学习者语音数据与元数据，设计英语水平评估指标
语音对齐技术验证: 利用8名参与者的对齐数据，测试或改进语音-文本对齐算法
口音变异分析: 研究不同母语背景学习者的英语口音特征及变异规律

数据与资源

12525952.zipZIP
401.15 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	401.15 MiB
最后更新	2026年1月18日
创建于	2026年1月18日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

AnglistikVoices_Based_第二语言英语学习者语音数据集v1_0_0

数据集概述

文件详解

数据来源

适用场景

数据与资源

附加信息

注册成功！