Kokoro日语语音数据集-Tiny版

Kokoro日语语音数据集-Tiny版 数据来源:互联网公开数据 标签:日语,语音,音频,语音合成,LibriVox,MeCab,UniDic Lite,公共领域,有声书,语言学 数据概述: Kokoro日语语音数据集是一个公共领域的日语语音数据集,包含一个说话者朗读的9部小说中的34,958个短音频片段。本数据集提供了tiny版本,包含285个音频片段。数据集的元数据格式与LJ Speech数据集类似,方便与现代语音合成系统兼容。文本来源于青空文库(Aozora Bunko),音频片段来自LibriVox项目,两者均属于公共领域。朗读文本由MeCab和UniDic Lite从汉字-假名混合文本中提取,并进行罗马化处理,格式与Julius类似。音频片段由Voice100自动分割并对齐转录文本。

数据用途概述: 该数据集主要用于语音合成、语音识别、语音研究等领域。研究人员可以利用此数据集训练和评估语音合成模型,开发日语语音相关的应用。数据集也适用于语言学习,帮助学习者熟悉日语发音和语调。此外,数据集的开源性质也方便教育和科研机构进行教学和研究。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 45.87 MiB
最后更新 2025年4月16日
创建于 2025年4月16日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。