Spotify音乐与歌词数据集-1921至2020年-bwandowando

Spotify音乐与歌词数据集-1921至2020年-bwandowando 数据来源:互联网公开数据 标签:Spotify,音乐,歌词,数据集,多语言,嵌入模型,BAAI,bge-m3,歌单,音乐流派,国家排行榜,歌词API

数据概述: 本数据集包含了1921年至2020年间约96万首Spotify音乐及其歌词信息,通过整合多个Spotify相关数据集并使用Spotify歌词API获取歌词内容。数据集涵盖了歌曲的基本信息、歌词文本以及歌词嵌入向量(使用多语言嵌入模型BAAI/bge-m3生成)。

数据集来源于多个Kaggle用户分享的数据集,包括: - @fcpercival分享的16万首1921年至2020年的Spotify歌曲 - @joebeachcapital分享的3万首Spotify歌曲 - @viktoriiashkurenko分享的6千个Spotify歌单 - @rodolfofigueroa分享的120万首及以上Spotify歌曲 - @saurabhshahane分享的Spotify与Genius曲目数据集 - @zaheenhamidani分享的Spotify曲目数据库 - @thedevastator分享的Spotify曲目流派数据 - @amitanshjoshi分享的Spotify_1Million_Tracks数据集 - @asaniczka分享的73个国家的Spotify热门歌曲日更新排行榜

数据字段包括: - 歌曲ID - 歌曲名称 - 歌手名称 - 发行年份 - 流派 - 歌词文本 - 歌词嵌入向量(使用BAAI/bge-m3模型生成) - 歌词开始时间(部分歌曲提供)

重要注意事项: - 并非所有歌曲都有可用的歌词 - 并非所有来源数据集都包含专辑信息 - 并非所有有歌词的歌曲都有正确标注的开始时间 - 提交了330万首独特的歌曲到歌词API,其中只有96万首歌曲有歌词

数据用途概述: 该数据集适用于音乐分析、歌词研究、情感分析、推荐系统开发等多种场景。研究人员可以利用歌词内容进行文本挖掘和自然语言处理;音乐制作人可以借助歌词数据进行音乐创作灵感获取;教育机构可以利用歌词数据进行音乐欣赏和文化教育。同时,歌词嵌入向量为音乐推荐和相似度计算提供了新的数据支持。使用本数据集时,请确保同时为所引用的原始数据集投票和致谢。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 六月 4, 2025, 14:50 (UTC)
创建于 六月 4, 2025, 14:48 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。