Letterboxd电影数据抓取数据集
数据来源:互联网公开数据
标签:电影,影评,社交媒体,数据抓取,电影推荐,机器学习,Letterboxd
数据概述:
本数据集源自Letterboxd网站的电影信息抓取,旨在为社区提供电影数据。数据抓取过程主要分为以下几个步骤:
- 电影链接抓取: 通过对“Filmes por Categoria”(按类别划分的电影)页面进行抓取,获取电影链接。
- 数据损失评估: 创建一个CSV表格,比较Letterboxd网站上的电影数量和抓取到的电影数量,以评估数据抓取过程中的数据损失。文件“letherboxd percas”包含了按电影类型估算的数据损失。
- 数据清洗: 使用Python和CSV文件对抓取的电影链接进行数据清洗,处理电影可能存在多个类型的情况,消除重复数据。清洗后的数据保存在“Log_Filmes_Tratados”文件中。
- 电影信息抓取: 基于清洗后的数据,逐个抓取电影的详细信息。
数据抓取说明:
由于Letterboxd网站使用JavaScript动态加载电影信息,简单的请求无法获取完整数据,需要使用Selenium等工具模拟浏览器行为进行抓取,这导致抓取速度较慢,且容易出现错误。
数据损失评估:
数据抓取和数据损失评估应同步进行,因为数据信息会不断更新。本数据集中,数据损失评估是在抓取完成后进行的。可接受的数据损失范围通常在-1%到-7%之间。
数据集状态:
目前正在进行电影信息的逐个抓取,文件“Arquivo filmes”包含抓取到的电影信息,但并非最新版本。总共有约30万个电影链接,已抓取的电影链接数量不到总量的3%,此过程仍在进行中。
数据用途概述:
该数据集可用于多种应用,包括:
- 机器学习预测:
- 预测电影评分或质量。
- 预测系列电影的新作是否受欢迎。
- 电影推荐工具:
- 开发网站或桌面应用程序,根据用户喜好推荐电影。
- 例如,用户可以在周末浏览推荐电影,工具会根据用户的Letterboxd列表或预选电影来推荐电影。
- 社交媒体应用:
- 构建类似Letterboxd的电影分类、推荐和社交媒体功能(例如,Movinder)。
- 数据集中的电影链接和图片信息可能对该类应用有帮助。
如有任何疑问,请随时联系。