Spotify热门艺人及歌曲元数据分析数据集-2024年4月1日-5月9日

Spotify热门艺人及歌曲元数据分析数据集-2024年4月1日-5月9日

数据来源:互联网公开数据

标签:Spotify, 音乐, 艺人, 歌曲, 元数据, 热门, 播放列表, 流行音乐, 数据分析, 音乐趋势

数据概述: 本数据集包含了2024年4月1日至5月9日期间,Spotify精选编辑播放列表中艺人和歌曲的元数据信息。数据旨在反映Spotify编辑团队所青睐的艺人和音乐类型,可用于与Spotify上所有艺人的大规模随机样本进行对比分析。

数据集包含三个文件:

featured_Spotify_artist_info.csv(约10,000位独立艺人,约28,000行):包含被推荐艺人的信息,包括在不同播放列表和日期上的重复出现。每出现一次,就对应一行数据。如果歌曲是合作歌曲,则只列出一个艺人,且该艺人是随机选择的。 featured_Spotify_track_info.csv(约15,000首独立歌曲):包含被推荐歌曲及其元数据,其中多个艺人、日期和播放列表被合并成以逗号分隔的字符串。 CLEANED_featured_Spotify_artist_info.csv:与(1)类似,但删除了任何包含空值的行,并补充了从Spotify传记中抓取的流派数据(详见下文)。

数据用途概述: 该数据集非常适合用于研究Spotify编辑团队所青睐的艺人和音乐类型。具体而言,它可以与Spotify艺人的随机样本进行直接比较,提供两组数据:被推荐艺人 vs. Spotify上的典型艺人。例如,可以用于:

分析被推荐音乐与Spotify上音乐的流派分布差异。 研究被推荐艺人的先前的受欢迎程度和月度听众数量(在被推荐时)与Spotify上其他艺人的对比。 探索可能导致艺人被纳入编辑播放列表的因素(和偏见)的因果关系。 进行其他任何您感兴趣的分析,例如音乐行业的市场趋势研究、音乐风格的演变等。

字段说明: featured_Spotify_artist_info.csv

dates: 艺人被推荐的日期,字符串 ids: 每个艺人的Spotify唯一ID,字符串 names: Spotify艺人名称,字符串 monthly_listeners: 每位艺人每月的独立听众数量,数据收集于2024年4月和5月。这是Spotify上公开可用的衡量艺人受欢迎程度的最可靠指标,浮点数,如果缺失则为0 popularity: Spotify定义的受欢迎程度指标,整数 请注意,Spotify实际上并未公开说明此指标的计算方式,因此应谨慎使用。广义上讲,它是根据艺人歌曲的受欢迎程度计算的,而歌曲的受欢迎程度又“主要基于歌曲的总播放次数以及这些播放的近期程度”。 followers: 艺人的粉丝数量,整数 genres: 与每位艺人相关的音乐流派:如果一个艺人关联了多个流派,则用引号括起来,并用逗号分隔;如果只有一个流派,则不使用引号,字符串,如果无流派则为空 请注意,Spotify元数据中经常缺少流派信息,因此在CLEANED_featured_Spotify_artist_info.csv中,我们额外抓取了Spotify传记中缺少流派信息的艺人数据(详见Provenance)。 要仅使用来自官方Spotify元数据的流派,您可以对featured_Spotify_artist_info.csv进行自己的清洗。 first_release: 艺人首次发行的年份,整数,如果没有发行则为-1 last_release: 截至2024年5月,艺人最近一次发行的年份,整数,如果没有发行则为-1 num_releases: 截至2024年5月,艺人已发行的总数量,上限为20(所有数字>20均设置为20),整数,如果没有发行则为-1 num_tracks: 截至2024年5月,艺人最近发行的专辑/单曲中的曲目数量,整数,如果没有曲目则为-1 playlists_found: 艺人在该日期被推荐的编辑播放列表,字符串,格式与genres相同 feat_track_ids: 被推荐歌曲的Spotify歌曲ID featured_Spotify_track_info.csv

ids: 每首歌曲的Spotify唯一ID,字符串 names: 歌曲名称,字符串 popularity: Spotify定义的受欢迎程度指标,整数 请注意,Spotify实际上并未公开说明此指标的计算方式,因此应谨慎使用。广义上讲,它是“主要基于歌曲的总播放次数以及这些播放的近期程度”。 markets: 歌曲可用的市场代码,整数 artists: 创作该歌曲的艺人的Spotify ID:如果多位艺人合作创作了一首歌曲,则将不同的艺人包含在引号中,并用逗号分隔;如果只有一个艺人,则不使用引号,字符串 release_date: Spotify提供的歌曲发行日期。有时这只是一个年份,有时是一个具体的日期,字符串 count: 歌曲被推荐的独立实例(日期和编辑播放列表)的数量,字符串 dates: 歌曲在任何播放列表上被推荐的日期,字符串 playlists_found: 歌曲被推荐的编辑播放列表,字符串,格式与featured_Spotify_artist_info.csv相同 以下内容直接从Spotify Web API文档复制而来

duration_ms: 歌曲的时长,以毫秒为单位,整数 acousticness: 衡量歌曲是否为原声的置信度,从0.0到1.0。1.0表示高度确信该歌曲是原声的,浮点数,范围0-1 danceability: 舞曲性描述了一首歌曲适合跳舞的程度,基于包括节奏、节奏稳定性、节拍强度和整体规律性等音乐元素的组合,浮点数,范围0-1 energy: 代表对强度和活动的感知度量。通常,充满活力的歌曲听起来很快、很响亮、很嘈杂。例如,死亡金属具有高能量,而巴赫的前奏曲在此尺度上得分较低。促成此属性的感知特征包括动态范围、感知响度、音色、起始率和一般熵,浮点数,范围0-1 instrumentalness: 预测一首歌曲是否包含人声。“Ooh”和“aah”的声音在此上下文中被视为器乐。说唱或口语歌曲显然是“人声”。器乐值越接近1.0,歌曲包含无声乐内容的可能性就越大。高于0.5的值旨在表示器乐歌曲,但置信度随着该值接近1.0而增加,浮点数,范围0-1 liveness: 检测录音中是否存在观众。更高的活跃度值表示该歌曲现场表演的可能性增加。高于0.8的值提供了该歌曲是现场表演的强烈可能性,浮点数,范围0-1 loudness: 歌曲的整体响度,以分贝(dB)为单位。响度值在整首歌曲中取平均值,并且对于比较歌曲的相对响度很有用。响度是声音的质量,是物理强度(振幅)的主要心理相关物。值通常在-60到0 dB之间,浮点数 speechiness: 说话度检测歌曲中是否存在口语。录音越是纯粹的口语(例如,脱口秀、有声读物、诗歌),属性值就越接近1.0。高于0.66的值描述了可能完全由口语构成的歌曲。介于0.33和0.66之间的值描述了可能同时包含音乐和口语的歌曲,无论是在部分还是分层中,包括说唱音乐等情况。低于0.33的值最有可能代表音乐和其他非口语歌曲,浮点数,范围0-1 tempo: 歌曲的整体估计速度,以每分钟节拍数(BPM)为单位。在音乐术语中,节奏是给定乐曲的速度或步调,直接源于平均节拍持续时间,浮点数 valence: 衡量歌曲传达的音乐积极性,从0.0到1.0。具有高valence的歌曲听起来更积极(例如,快乐、开朗、兴奋),而具有低valence的歌曲听起来更消极(例如,悲伤、沮丧、愤怒),浮点数 musicalkey: 等同于Spotify Web API语法中的“key”字段。歌曲所在的调。整数使用标准音高类别表示法映射到音高。例如,0 = C,1 = C♯/D♭,2 = D,依此类推。如果未检测到调,则值为-1,整数 musicalmode: 等同于Spotify Web API语法中的“mode”字段。Mode指示歌曲的模态(大调或小调),即其旋律内容派生的音阶类型。大调用1表示,小调用0表示,整数 time_signature: 估计的时间签名。时间签名(拍子)是一种符号约定,用于指定每个小节(或小节)中有多少个节拍。时间签名范围从3到7,表示“3/4”到“7/4”的时间签名,整数,仅表示5个时间签名

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 5.52 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。