越南语基于FOSD_Tacotron_2的文本转语音模型数据集2018

数据集概述

本数据集是首个基于FPT开放语音数据(FOSD)和Tacotron-2的越南语文本转语音模型数据集,包含配置文件、训练验证文本文件、训练后模型文件及生成音频样本,支持越南语TTS相关研究与应用。

文件详解

  • 配置文件:
  • config.json:JSON格式配置文件,用于模型参数设置
  • 文本数据文件:
  • metadata_train.csv:CSV格式训练文本文件,包含语音数据标识、越南语原句及处理后文本
  • metadata_val.csv:CSV格式验证文本文件,包含语音数据标识、越南语原句及处理后文本
  • 模型文件:
  • checkpoint_225000.pth.tar:训练至二十二万五千步的模型 checkpoint 文件
  • 音频样本文件(位于Sample Generated Audios - Step 224306/目录下):
  • TestSentence_1_noisy.wav、TestSentence_2_clear.wav等:WAV格式生成音频样本,包含清晰及含噪语音
  • 版权文件:
  • FPT Open Speech Data (FOSD) Copyright.txt:TXT格式版权声明文件,含数据使用许可说明

数据来源

FPT Corporation

适用场景

  • 越南语文本转语音(TTS)技术研究与模型优化
  • 语音合成输入文本处理方法开发
  • TTS生成音频质量评估与改进
  • 多语言语音合成技术对比分析
  • 语音交互应用中的越南语语音生成模块开发
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 305.14 MiB
最后更新 2025年11月26日
创建于 2025年11月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。