Spotify音乐与歌词数据集-1921至2020年-bwandowando
数据来源:互联网公开数据
标签:Spotify,音乐,歌词,数据集,多语言,嵌入模型,BAAI,bge-m3,歌单,音乐流派,国家排行榜,歌词API
数据概述:
本数据集包含了1921年至2020年间约96万首Spotify音乐及其歌词信息,通过整合多个Spotify相关数据集并使用Spotify歌词API获取歌词内容。数据集涵盖了歌曲的基本信息、歌词文本以及歌词嵌入向量(使用多语言嵌入模型BAAI/bge-m3生成)。
数据集来源于多个Kaggle用户分享的数据集,包括:
- @fcpercival分享的16万首1921年至2020年的Spotify歌曲
- @joebeachcapital分享的3万首Spotify歌曲
- @viktoriiashkurenko分享的6千个Spotify歌单
- @rodolfofigueroa分享的120万首及以上Spotify歌曲
- @saurabhshahane分享的Spotify与Genius曲目数据集
- @zaheenhamidani分享的Spotify曲目数据库
- @thedevastator分享的Spotify曲目流派数据
- @amitanshjoshi分享的Spotify_1Million_Tracks数据集
- @asaniczka分享的73个国家的Spotify热门歌曲日更新排行榜
数据字段包括:
- 歌曲ID
- 歌曲名称
- 歌手名称
- 发行年份
- 流派
- 歌词文本
- 歌词嵌入向量(使用BAAI/bge-m3模型生成)
- 歌词开始时间(部分歌曲提供)
重要注意事项:
- 并非所有歌曲都有可用的歌词
- 并非所有来源数据集都包含专辑信息
- 并非所有有歌词的歌曲都有正确标注的开始时间
- 提交了330万首独特的歌曲到歌词API,其中只有96万首歌曲有歌词
数据用途概述:
该数据集适用于音乐分析、歌词研究、情感分析、推荐系统开发等多种场景。研究人员可以利用歌词内容进行文本挖掘和自然语言处理;音乐制作人可以借助歌词数据进行音乐创作灵感获取;教育机构可以利用歌词数据进行音乐欣赏和文化教育。同时,歌词嵌入向量为音乐推荐和相似度计算提供了新的数据支持。使用本数据集时,请确保同时为所引用的原始数据集投票和致谢。