数据集概述
本数据集是MUSDB18数据集的歌词标注扩展,包含九十八首训练集歌曲与四十五首测试集歌曲的英文歌词人工转录文本。歌词按三至十二秒自然停顿分段,部分有一秒重叠,提供词音素分解及辅助脚本,适用于文本辅助歌声分离等研究。
文件详解
- README.txt: TXT格式,包含数据集说明、使用条款、引用要求、数据结构及文件说明等核心信息
- LICENSE.txt: TXT格式,Creative Commons Attribution-NonCommercial-ShareAlike 4.0国际许可协议全文
- train_lyrics.zip: ZIP格式,训练集歌曲的歌词标注文件压缩包
- test_lyrics.zip: ZIP格式,测试集歌曲的歌词标注文件压缩包
- words_and_phonemes.txt: TXT格式,包含所有单词及其ARPABET风格音素分解的对应列表
- musdb_lyrics_cut_audio.py: PY格式,可自动切割MUSDB音频至标注分段的Python脚本,需配置路径及参数
适用场景
- 歌声分离研究: 用于文本辅助的歌声分离任务开发与验证
- 歌词处理任务: 支持自动歌词对齐、歌词转录等技术研究
- 歌声合成分析: 为歌声合成与分析提供文本-音频关联数据
- 语音处理研究: 适用于歌唱语音相关的语音学特征分析