MovieLens电影推荐数据集ml-latest-small
数据来源:互联网公开数据
标签:电影,推荐,评分,标签,用户行为,时间序列,数据分析,机器学习,推荐系统,MovieLens
数据概述:
MovieLens数据集(ml-latest-small)是一个小型电影推荐数据集,包含了来自MovieLens电影推荐服务的用户评分和自由文本标签数据。该数据集包含100004条评分记录和1296条标签应用,涉及9125部电影。这些数据由671位用户在1995年1月9日至2016年10月16日期间创建。数据集于2016年10月17日生成。用户是随机选择的,所有被选中的用户至少对20部电影进行了评分。数据集不包含人口统计学信息,每个用户由一个ID表示。
数据文件结构:
数据集由四个CSV文件组成:
ratings.csv:包含用户对电影的评分数据,格式为:userId,movieId,rating,timestamp。评分范围为0.5星到5.0星,以0.5星为增量。时间戳表示自协调世界时(UTC)1970年1月1日午夜以来的秒数。
tags.csv:包含用户为电影添加的标签数据,格式为:userId,movieId,tag,timestamp。标签是用户生成的关于电影的元数据,通常是一个单词或短语。时间戳表示自协调世界时(UTC)1970年1月1日午夜以来的秒数。
movies.csv:包含电影信息,格式为:movieId,title,genres。电影标题可能包含发布年份。genres是管道分隔的列表,包含Action、Adventure等多种电影类型。
links.csv:包含用于链接到其他电影数据源的标识符,格式为:movieId,imdbId,tmdbId。imdbId和tmdbId分别是来自http://www.imdb.com和https://www.themoviedb.org的电影标识符。
数据用途概述:
该数据集适用于多种研究和应用场景,主要用于电影推荐系统、用户行为分析、数据挖掘和机器学习等领域。研究人员可以利用此数据开发和评估推荐算法,分析用户评分和标签对电影推荐的影响,以及探索用户偏好随时间的变化。此外,该数据集也常用于教学和学术研究,例如作为入门级机器学习项目的练习数据,或者用于演示数据分析和可视化技术。