数据集概述
本数据集为UOC数据科学硕士课程实践项目成果,包含IMDb Top 250榜单电影的250条记录,涵盖排名、标题、评分、类型、导演等关键信息,时间跨度为1921至2024年,评分数据采集于2024年10-11月,支持电影推荐系统及相关分析应用。
文件详解
- 核心数据文件(CSV格式)
- 文件名称:top_250_movies.csv
- 文件格式:CSV
- 字段映射介绍:包含ranking(排名)、nombre(西班牙文标题)、enlace(IMDb链接)、ano_lanz(上映年份)、duración(片长)、edad(年龄分级)、rating(用户评分)、num_votos(评分人数)、titulo_original(原始标题)、sinopsis(西班牙文剧情简介)、genero(类型)、direccion(导演)、guionistas(编剧)、elenco(主演)
- 核心数据文件(JSON格式)
- 文件名称:top_250_movies.json
- 文件格式:JSON
- 字段映射介绍:包含与CSV文件完全一致的14个字段,数据内容相同,格式为JSON结构化存储
数据来源
UOC数据科学硕士课程"Tipología y ciclo de vida de los datos"实践项目(Ignacio Gimeno Alonso与Morad Kharraz Senhaji制作),原始数据来自IMDb Top 250榜单(https://www.imdb.com/chart/top/?ref_=nv_mv_250)
适用场景
- 电影推荐系统开发: 基于电影评分、类型、导演等特征构建协同过滤或内容推荐模型
- 电影市场趋势分析: 分析不同年代、类型电影的评分分布及受欢迎程度变化
- 用户偏好研究: 探索用户对导演、演员、类型等元素的偏好与评分关联性
- 电影数据可视化: 展示IMDb Top 250电影的时间分布、类型占比、评分分布等特征
- 跨语言电影数据应用: 利用西班牙文标题与原始标题的对应关系,支持多语言电影分析场景