数据集

Spotify热门艺人及歌曲元数据分析数据集-2024年4月1日-5月9日

数据来源：互联网公开数据

标签：Spotify, 音乐, 艺人, 歌曲, 元数据, 热门, 播放列表, 流行音乐, 数据分析, 音乐趋势

数据概述：本数据集包含了2024年4月1日至5月9日期间，Spotify精选编辑播放列表中艺人和歌曲的元数据信息。数据旨在反映Spotify编辑团队所青睐的艺人和音乐类型，可用于与Spotify上所有艺人的大规模随机样本进行对比分析。

数据集包含三个文件：

featured_Spotify_artist_info.csv（约10,000位独立艺人，约28,000行）：包含被推荐艺人的信息，包括在不同播放列表和日期上的重复出现。每出现一次，就对应一行数据。如果歌曲是合作歌曲，则只列出一个艺人，且该艺人是随机选择的。 featured_Spotify_track_info.csv（约15,000首独立歌曲）：包含被推荐歌曲及其元数据，其中多个艺人、日期和播放列表被合并成以逗号分隔的字符串。 CLEANED_featured_Spotify_artist_info.csv：与(1)类似，但删除了任何包含空值的行，并补充了从Spotify传记中抓取的流派数据（详见下文）。

数据用途概述：该数据集非常适合用于研究Spotify编辑团队所青睐的艺人和音乐类型。具体而言，它可以与Spotify艺人的随机样本进行直接比较，提供两组数据：被推荐艺人 vs. Spotify上的典型艺人。例如，可以用于：

分析被推荐音乐与Spotify上音乐的流派分布差异。研究被推荐艺人的先前的受欢迎程度和月度听众数量（在被推荐时）与Spotify上其他艺人的对比。探索可能导致艺人被纳入编辑播放列表的因素（和偏见）的因果关系。进行其他任何您感兴趣的分析，例如音乐行业的市场趋势研究、音乐风格的演变等。

字段说明： featured_Spotify_artist_info.csv

dates: 艺人被推荐的日期，字符串 ids: 每个艺人的Spotify唯一ID，字符串 names: Spotify艺人名称，字符串 monthly_listeners: 每位艺人每月的独立听众数量，数据收集于2024年4月和5月。这是Spotify上公开可用的衡量艺人受欢迎程度的最可靠指标，浮点数，如果缺失则为0 popularity: Spotify定义的受欢迎程度指标，整数请注意，Spotify实际上并未公开说明此指标的计算方式，因此应谨慎使用。广义上讲，它是根据艺人歌曲的受欢迎程度计算的，而歌曲的受欢迎程度又“主要基于歌曲的总播放次数以及这些播放的近期程度”。 followers: 艺人的粉丝数量，整数 genres: 与每位艺人相关的音乐流派：如果一个艺人关联了多个流派，则用引号括起来，并用逗号分隔；如果只有一个流派，则不使用引号，字符串，如果无流派则为空请注意，Spotify元数据中经常缺少流派信息，因此在CLEANED_featured_Spotify_artist_info.csv中，我们额外抓取了Spotify传记中缺少流派信息的艺人数据（详见Provenance）。要仅使用来自官方Spotify元数据的流派，您可以对featured_Spotify_artist_info.csv进行自己的清洗。 first_release: 艺人首次发行的年份，整数，如果没有发行则为-1 last_release: 截至2024年5月，艺人最近一次发行的年份，整数，如果没有发行则为-1 num_releases: 截至2024年5月，艺人已发行的总数量，上限为20（所有数字>20均设置为20），整数，如果没有发行则为-1 num_tracks: 截至2024年5月，艺人最近发行的专辑/单曲中的曲目数量，整数，如果没有曲目则为-1 playlists_found: 艺人在该日期被推荐的编辑播放列表，字符串，格式与genres相同 feat_track_ids: 被推荐歌曲的Spotify歌曲ID featured_Spotify_track_info.csv

ids: 每首歌曲的Spotify唯一ID，字符串 names: 歌曲名称，字符串 popularity: Spotify定义的受欢迎程度指标，整数请注意，Spotify实际上并未公开说明此指标的计算方式，因此应谨慎使用。广义上讲，它是“主要基于歌曲的总播放次数以及这些播放的近期程度”。 markets: 歌曲可用的市场代码，整数 artists: 创作该歌曲的艺人的Spotify ID：如果多位艺人合作创作了一首歌曲，则将不同的艺人包含在引号中，并用逗号分隔；如果只有一个艺人，则不使用引号，字符串 release_date: Spotify提供的歌曲发行日期。有时这只是一个年份，有时是一个具体的日期，字符串 count: 歌曲被推荐的独立实例（日期和编辑播放列表）的数量，字符串 dates: 歌曲在任何播放列表上被推荐的日期，字符串 playlists_found: 歌曲被推荐的编辑播放列表，字符串，格式与featured_Spotify_artist_info.csv相同以下内容直接从Spotify Web API文档复制而来

duration_ms: 歌曲的时长，以毫秒为单位，整数 acousticness: 衡量歌曲是否为原声的置信度，从0.0到1.0。1.0表示高度确信该歌曲是原声的，浮点数，范围0-1 danceability: 舞曲性描述了一首歌曲适合跳舞的程度，基于包括节奏、节奏稳定性、节拍强度和整体规律性等音乐元素的组合，浮点数，范围0-1 energy: 代表对强度和活动的感知度量。通常，充满活力的歌曲听起来很快、很响亮、很嘈杂。例如，死亡金属具有高能量，而巴赫的前奏曲在此尺度上得分较低。促成此属性的感知特征包括动态范围、感知响度、音色、起始率和一般熵，浮点数，范围0-1 instrumentalness: 预测一首歌曲是否包含人声。“Ooh”和“aah”的声音在此上下文中被视为器乐。说唱或口语歌曲显然是“人声”。器乐值越接近1.0，歌曲包含无声乐内容的可能性就越大。高于0.5的值旨在表示器乐歌曲，但置信度随着该值接近1.0而增加，浮点数，范围0-1 liveness: 检测录音中是否存在观众。更高的活跃度值表示该歌曲现场表演的可能性增加。高于0.8的值提供了该歌曲是现场表演的强烈可能性，浮点数，范围0-1 loudness: 歌曲的整体响度，以分贝（dB）为单位。响度值在整首歌曲中取平均值，并且对于比较歌曲的相对响度很有用。响度是声音的质量，是物理强度（振幅）的主要心理相关物。值通常在-60到0 dB之间，浮点数 speechiness: 说话度检测歌曲中是否存在口语。录音越是纯粹的口语（例如，脱口秀、有声读物、诗歌），属性值就越接近1.0。高于0.66的值描述了可能完全由口语构成的歌曲。介于0.33和0.66之间的值描述了可能同时包含音乐和口语的歌曲，无论是在部分还是分层中，包括说唱音乐等情况。低于0.33的值最有可能代表音乐和其他非口语歌曲，浮点数，范围0-1 tempo: 歌曲的整体估计速度，以每分钟节拍数（BPM）为单位。在音乐术语中，节奏是给定乐曲的速度或步调，直接源于平均节拍持续时间，浮点数 valence: 衡量歌曲传达的音乐积极性，从0.0到1.0。具有高valence的歌曲听起来更积极（例如，快乐、开朗、兴奋），而具有低valence的歌曲听起来更消极（例如，悲伤、沮丧、愤怒），浮点数 musicalkey: 等同于Spotify Web API语法中的“key”字段。歌曲所在的调。整数使用标准音高类别表示法映射到音高。例如，0 = C，1 = C♯/D♭，2 = D，依此类推。如果未检测到调，则值为-1，整数 musicalmode: 等同于Spotify Web API语法中的“mode”字段。Mode指示歌曲的模态（大调或小调），即其旋律内容派生的音阶类型。大调用1表示，小调用0表示，整数 time_signature: 估计的时间签名。时间签名（拍子）是一种符号约定，用于指定每个小节（或小节）中有多少个节拍。时间签名范围从3到7，表示“3/4”到“7/4”的时间签名，整数，仅表示5个时间签名

数据与资源

Spotify热门艺人及歌曲元数据分析数据集-2024年4月1日-5月9日.zipZIP
5.52 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	5.52 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Spotify热门艺人及歌曲元数据分析数据集-2024年4月1日-5月9日

数据与资源

附加信息

注册成功！