TMDB电影数据清洗与分析数据集-bharatkumar0925

TMDB电影数据清洗与分析数据集-bharatkumar0925 数据来源:互联网公开数据 标签:电影,TMDB,数据清洗,推荐系统,电影分析,票房预测,大数据,影视,娱乐

数据概述: 本数据集包含两个文件,均源自TMDB(The Movie Database)电影数据集。原始数据集包含约90万部电影,为满足推荐系统构建需求,对数据进行了筛选与清洗。其中,移除了缺失“概述”(Overview)信息的电影,因为“概述”是数据分析的重要字段。

Large_movies_data.csv: 该文件包含了原始数据集的详细信息,共收录了663,828部电影。

字段说明: Id:电影的唯一标识符。 Title:电影标题。 Overview:电影的简短描述。 Genres:电影的类型。 Cast:电影的主要演员。 Director:电影导演。 Writers:电影编剧。 Production_companies:电影制作公司。 Producers:电影制片人。 Original_language:电影的原始语言。 Vote_count:电影的投票总数。 Vote_average:电影的平均评分。 Popularity:电影的热度评分。 Runtime:电影时长(分钟)。 Release_date:电影上映日期。

Large_movies_clean.csv: 该文件是经过清洗后的版本,移除了冗余字段,并将文本转换为小写,同时删除了大量符号(可能仍有少量残留)。如需使用原始字段,请参考Large_movies_data.csv。

字段说明: Id:电影的唯一标识符。 Title:电影标题。 Tags:整合了“概述”、“类型”及其他文本字段的信息。 Original_language:电影的原始语言。 Vote_count:电影的投票总数。 Vote_average:电影的平均评分。 Year:从上映日期提取的年份。 Month:从上映日期提取的月份。

数据用途概述: 该数据集适用于构建推荐系统、进行电影行业分析、预测电影评分等多种场景。具体应用包括: 构建推荐系统:利用该数据集构建强大的电影推荐系统。 分析:识别出演过最受欢迎电影的演员,分析编剧、导演、制片人组合对电影的影响,以及独立制片人是否更有利于创作优质电影等。 评分预测:根据“概述”、“类型”、“演员”等因素预测电影的平均评分。 其他分析:进行其他类型的分析,以发现电影行业的模式和趋势。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 252.21 MiB
最后更新 2025年6月1日
创建于 2025年6月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。