NetflixPrize用户电影评分预测数据集-2000至2005年-netflix-inc

NetflixPrize用户电影评分预测数据集-2000至2005年-netflix-inc 数据来源:互联网公开数据 标签:Netflix Prize,用户评分,电影推荐,算法竞赛,数据科学,预测模型,用户行为,电影数据

数据概述: 本数据集来源于Netflix Prize竞赛,包含用户对电影的评分数据,旨在寻找最佳的用户评分预测算法。数据集分为训练集、电影信息、资格赛数据集和探针数据集四个部分。

训练集包含17770个电影文件,每个文件记录了特定电影的用户评分及其日期,格式为:CustomerID,Rating,Date。电影ID范围从1到17770,用户ID范围从1到2649429(存在间隔),共有480189个活跃用户,评分范围为1到5星。

电影信息文件“movie_titles.txt”包含了每部电影的ID、发行年份和标题。电影ID不对应实际的Netflix或IMDB电影ID,发行年份范围从1890年到2005年,标题为英文,可能与他处使用的标题不同。

资格赛数据集“qualifying.txt”提供了需要预测评分的用户和电影对信息,包含电影ID、用户ID和评分日期,格式为MovieID:CustomerID,Date。探针数据集“probe.txt”与资格赛数据集格式相同,但包含已知评分,用于测试预测模型的准确性。

数据用途概述: 该数据集适用于推荐系统开发、用户行为分析、评分预测算法研究等多种场景。研究人员可以利用训练集开发和优化评分预测模型;开发人员可以利用资格赛和探针数据集测试和评估模型性能;教育者可以利用此数据集进行机器学习和数据分析教学。本数据集为Netflix Prize竞赛的获胜算法提供了宝贵的数据基础。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 22:36 (UTC)
创建于 五月 31, 2025, 22:34 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。