多语言歌词音乐流派分类数据集-mateibejan

多语言歌词音乐流派分类数据集-mateibejan 数据来源:互联网公开数据 标签:多语言,歌词,音乐流派,文本挖掘,信息检索,语言检测,音乐分类

数据概述: 本数据集是为布加勒斯特数学与计算机科学系信息检索与文本挖掘课程的工作而收集的。数据由四个来源组成。初始数据来自2018年Sparktech黑客马拉松,随后通过其他三个Kaggle数据集进行扩展:150K歌词标记了Spotify情感值的数据集、lyrics musics数据集和AZLyrics歌词数据集。

除了原始的Sparktech数据外,其他数据集没有提供流派标签。为了解决流派标签缺失的问题,我使用了spotipy库(利用Spotify API检索艺术家的流派)。需要注意的是,Spotify API会返回一个艺术家的流派列表,因此我选择了最常见的流派作为该艺术家的主导流派。

此外,AZLyrics的数据编码有问题,即逗号既被用作列分隔符,也被用作歌词列中的换行符。幸运的是,数据集中包含两个URL列,可以方便地分离艺术家、歌曲和歌词列,因此我利用正则表达式并通过https://作为分隔符提取了有用的数据。

最后,我使用了Nakatani Shuyo的langdetect库自动为歌词标记语言。总共有34种语言的歌词。

数据用途概述: 该数据集适用于音乐流派分类任务和不同的特征工程方法。研究人员和学生可以利用此数据集进行音乐流派分类的研究,尝试不同的特征工程方法,探索音乐文本数据的多样性和复杂性。通过该项工作,可以挖掘出不同语言和流派歌词的特征,为音乐推荐系统、音乐信息检索和文本挖掘等领域提供宝贵的数据支持。

数据与资源

附加信息

字段
版本 1.0
最后更新 六月 1, 2025, 20:20 (UTC)
创建于 六月 1, 2025, 20:20 (UTC)