AnglistikVoices_Based_第二语言英语学习者语音数据集v1_0_0

数据集概述

本数据集为非母语英语学习者语音数据集,包含15名非母语英语学习者的语音录音,总时长74分钟,每人60条音频样本。数据源自大学课程项目,采用Audio-Technica ATM75麦克风在录音棚录制,刺激语句来自Artie Bias Corpus,8名参与者提供句子级对齐数据,配套元数据含学习者语言背景信息。

文件详解

  • 文件名称:metadata.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:以参与者ID为索引,包含母语、英语水平、语言学习历史等语言学背景元数据
  • 文件名称:raw.zip
  • 文件格式:ZIP
  • 字段映射介绍:按参与者ID组织的原始语音录音文件,含15名参与者的未对齐音频样本
  • 文件名称:sentence-aligned-audios.zip
  • 文件格式:ZIP
  • 字段映射介绍:8名参与者的句子级对齐语音文件,提供音频与文本的对应关系

数据来源

Zenodo平台(DOI:10.5281/zenodo.12525952)

适用场景

  • 第二语言语音习得研究: 分析非母语学习者的语音特征、发音模式与语言背景的关联
  • 语音识别模型训练: 用于构建针对非母语英语语音的识别系统,优化模型鲁棒性
  • 语言教学评估工具开发: 基于学习者语音数据与元数据,设计英语水平评估指标
  • 语音对齐技术验证: 利用8名参与者的对齐数据,测试或改进语音-文本对齐算法
  • 口音变异分析: 研究不同母语背景学习者的英语口音特征及变异规律
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 401.15 MiB
最后更新 2026年1月18日
创建于 2026年1月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。