孟加拉语实数语音识别音频数据集

数据集概述

该数据集是一个音频文本平行语料库,包含孟加拉语实数的录音及其对应文本,专为孟加拉语语音识别设计。涵盖五位发言人的录音,词汇仅包含孟加拉语实数相关表达。

文件详解

  • 文件名称: Bangla Real Number Audio- Dataset(Text-and-Audio)-mini-Speech-to-Text.zip
  • 文件格式: ZIP (.zip)
  • 文件内容: 压缩包内包含175个音频文件(每位发言人35个)和1个文本文件TextData.txt。TextData.txt中每行以和标签包裹文本,括号内标注对应音频文件名。
  • 核心字段(文本文件): 每行包含孟加拉语实数文本、音频文件名映射。

数据来源

Shahjalal University of Science and Technology (SUST) Department of Computer Science and Engineering (CSE)

适用场景

  • 孟加拉语语音识别模型训练与优化
  • 低资源语言语音文本对齐研究
  • 数字语音识别专项任务开发
  • 多发言人语音特征对比分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 25.27 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。