数据集概述
本数据集是首个基于FPT开放语音数据(FOSD)和Tacotron-2的越南语文本转语音模型数据集,包含配置文件、训练验证文本文件、训练后模型文件及生成音频样本,支持越南语TTS相关研究与应用。
文件详解
- 配置文件:
- config.json:JSON格式配置文件,用于模型参数设置
- 文本数据文件:
- metadata_train.csv:CSV格式训练文本文件,包含语音数据标识、越南语原句及处理后文本
- metadata_val.csv:CSV格式验证文本文件,包含语音数据标识、越南语原句及处理后文本
- 模型文件:
- checkpoint_225000.pth.tar:训练至二十二万五千步的模型 checkpoint 文件
- 音频样本文件(位于Sample Generated Audios - Step 224306/目录下):
- TestSentence_1_noisy.wav、TestSentence_2_clear.wav等:WAV格式生成音频样本,包含清晰及含噪语音
- 版权文件:
- FPT Open Speech Data (FOSD) Copyright.txt:TXT格式版权声明文件,含数据使用许可说明
数据来源
FPT Corporation
适用场景
- 越南语文本转语音(TTS)技术研究与模型优化
- 语音合成输入文本处理方法开发
- TTS生成音频质量评估与改进
- 多语言语音合成技术对比分析
- 语音交互应用中的越南语语音生成模块开发