IMDB与TMDB电影元数据大型数据集-2023-shubhamchandra235
数据来源:互联网公开数据
标签:IMDB, TMDB, 电影, 元数据, 数据分析, 推荐系统, 情感分析, 电影产业
数据概述:
本数据集整合了来自IMDB和TMDB的丰富电影数据,包含超过100万条记录和42个详细的特征,适用于电影爱好者、数据科学家和研究人员。数据集涵盖了各种类型的电影,包括不同的流派、时期和制作背景,提供了详尽的电影信息。
数据包含以下关键字段:
- ID:每部电影的唯一标识符。
- Title:电影的官方标题。
- Vote Average:电影的平均评分。
- Vote Count:电影收到的投票数量。
- Status:电影的当前状态(如已发布、后期制作等)。
- Release Date:电影的官方上映日期。
- Revenue:电影的票房收入。
- Runtime:电影时长(分钟)。
- Adult:是否为成人电影。
- Genres:电影所属的流派列表。
- Overview Sentiment:电影概览文本的情感分析。
- Cast:电影的主要演员列表。
- Crew:包括导演、制片人和编剧在内的关键工作人员列表。
- Genres List:详细的流派列表。
- Keywords:与电影相关的关键词列表。
- Director of Photography:摄影指导的姓名。
- Producers:制片人的姓名。
- Music Composer:作曲家的姓名。
其他特征包括:
- Unnamed 0:索引列。
- Star1, Star2, Star3, Star4:主演的名字。
- Writer:编剧的名字。
- Original Language:电影的原始语言。
- Original Title:如果与主标题不同,则为原始标题。
- Popularity:电影的流行度评分。
- Budget:电影的预算。
- Tagline:电影的宣传标语。
- Production Companies:参与制作的公司。
- Production Countries:电影拍摄的国家。
- Spoken Languages:电影中使用的语言。
- Homepage:电影的官方网站。
- IMDB ID:IMDB上的唯一标识符。
- TMDB ID:TMDB上的唯一标识符。
- Video:是否有关联视频。
- Poster Path:电影海报的路径。
- Backdrop Path:背景图片的路径。
- Release Year:电影的发行年份。
- Collection Name:电影所属的系列名称。
- Collection ID:系列的唯一标识符。
- Genres ID:流派的唯一标识符。
- Original Language Code:原始语言的代码。
- Overview:电影的简要概述。
- All Combined Keywords:合并后的关键词。
数据用途概述:
该数据集适用于多种应用场景,包括情感分析、推荐系统构建、市场趋势分析、内容分析和数据可视化。例如,研究人员可以利用此数据集分析观众对电影的情感反应;数据科学家可以基于用户偏好和观看历史构建个性化的电影推荐系统;市场分析师可以研究电影行业的趋势,如流派的流行度和收入模式;内容分析师可以调查电影主题内容和多样性的变化;数据可视化专家可以通过创建数据的可视化表示来发现隐藏的见解。