MovieLens电影推荐系统用户评价与标签数据集ml-latest-27m
数据来源:互联网公开数据
标签:电影,推荐系统,用户评价,标签,电影数据,评分,时间序列,数据集,MovieLens
数据概述:
本数据集(ml-latest-27m)是MovieLens电影推荐服务收集的用户评分和标签数据,包含27753444条评分和1108997条标签,涵盖了58098部电影。这些数据由283228位用户于1995年1月9日至2018年9月26日期间产生,数据集生成于2018年9月26日。用户是随机抽样选取的,所有用户都至少评价过1部电影。数据集不包含任何人口统计学信息,每位用户由一个ID标识。
数据结构包括:
* ratings.csv:包含用户ID、电影ID、评分和时间戳。评分基于5星制,以0.5星为增量。时间戳表示自协调世界时(UTC)1970年1月1日午夜以来的秒数。
* tags.csv:包含用户ID、电影ID、标签和时间戳。标签是用户生成的关于电影的元数据,通常是一个词或短语。
* movies.csv:包含电影ID、标题和流派信息。流派以管道符分隔。
* links.csv:包含电影ID、IMDB ID和TMDB ID,用于链接到其他电影数据源。
* genome-scores.csv 和 genome-tags.csv:包含电影标签相关性数据和标签描述,用于更高级的推荐系统。
数据用途概述:
该数据集适用于电影推荐系统构建、用户行为分析、电影流派研究等多种场景。研究人员可以利用此数据开发和评估推荐算法;数据分析师可以探索用户评分和标签与电影特征之间的关系;教育工作者可以将其用于机器学习和数据挖掘课程的实践项目。此外,该数据集也适用于电影产业分析,例如研究不同电影流派的受欢迎程度和用户评价。