数据集概述
本数据集包含5,000部电影的综合排名信息,基于IMDb平台的电影数据构建。数据集涵盖从1915年到2025年跨越110年的电影作品,提供了电影的基本信息、评分数据、创作团队和分类信息等多维度内容。
字段定义
tconst: IMDb平台电影唯一标识符,用于关联IMDb数据库中的具体电影条目
primaryTitle: 电影主标题,即电影的正式名称
startYear: 电影首次发行年份,反映电影的制作时代背景
rank: 电影在本数据集中的排名位置,范围为1-5000
averageRating: 电影在IMDb平台的平均用户评分,采用10分制评分体系
numVotes: 参与评分的用户总数,反映电影的受关注程度和评分可信度
runtimeMinutes: 电影时长,以分钟为单位
directors: 电影导演姓名信息
writers: 电影编剧或原作者信息
genres: 电影类型标签,包含动作、剧情、科幻等分类信息
IMDbLink: 指向IMDb平台该电影页面的直接链接
Title_IMDb_Link: 包含电影标题的IMDb链接格式
数据特征
数据集包含5,000条完整记录,数据完整性良好,总体缺失率仅为0.04%。电影评分分布在5.9-9.3分之间,平均评分为7.153分,体现了数据集对高质量电影的倾向性。参与评分的用户数量从25,013到3,100,175不等,平均为165,690人,显示了不同电影的受众规模差异。电影时长分布在25-374分钟之间,平均时长为115分钟,符合主流电影制作标准。
数据来源
数据源于IMDb电影数据库
数据集涵盖1915年至2025年的电影作品,时间跨度为110年。数据为静态快照,反映特定时间点的电影排名状态。
适用场景
本数据集适用于电影行业分析、娱乐市场研究、影视作品趋势分析、推荐系统开发、数据科学教学和电影文化研究等多种应用场景。可支持电影评分预测、类型偏好分析、导演作品研究、历史电影发展趋势分析等具体研究任务。