Letterboxd电影数据抓取数据集

数据来源：互联网公开数据

标签：电影,影评,社交媒体,数据抓取,电影推荐,机器学习,Letterboxd

数据概述：本数据集源自Letterboxd网站的电影信息抓取，旨在为社区提供电影数据。数据抓取过程主要分为以下几个步骤：

电影链接抓取：通过对“Filmes por Categoria”（按类别划分的电影）页面进行抓取，获取电影链接。
数据损失评估：创建一个CSV表格，比较Letterboxd网站上的电影数量和抓取到的电影数量，以评估数据抓取过程中的数据损失。文件“letherboxd percas”包含了按电影类型估算的数据损失。
数据清洗：使用Python和CSV文件对抓取的电影链接进行数据清洗，处理电影可能存在多个类型的情况，消除重复数据。清洗后的数据保存在“Log_Filmes_Tratados”文件中。
电影信息抓取：基于清洗后的数据，逐个抓取电影的详细信息。

数据抓取说明：

由于Letterboxd网站使用JavaScript动态加载电影信息，简单的请求无法获取完整数据，需要使用Selenium等工具模拟浏览器行为进行抓取，这导致抓取速度较慢，且容易出现错误。

数据损失评估：

数据抓取和数据损失评估应同步进行，因为数据信息会不断更新。本数据集中，数据损失评估是在抓取完成后进行的。可接受的数据损失范围通常在-1%到-7%之间。

数据集状态：

目前正在进行电影信息的逐个抓取，文件“Arquivo filmes”包含抓取到的电影信息，但并非最新版本。总共有约30万个电影链接，已抓取的电影链接数量不到总量的3%，此过程仍在进行中。

数据用途概述：该数据集可用于多种应用，包括：

机器学习预测：
- 预测电影评分或质量。
- 预测系列电影的新作是否受欢迎。
电影推荐工具：
- 开发网站或桌面应用程序，根据用户喜好推荐电影。
- 例如，用户可以在周末浏览推荐电影，工具会根据用户的Letterboxd列表或预选电影来推荐电影。
社交媒体应用：
- 构建类似Letterboxd的电影分类、推荐和社交媒体功能（例如，Movinder）。
- 数据集中的电影链接和图片信息可能对该类应用有帮助。

如有任何疑问，请随时联系。

数据与资源

字段	值
版本	1.0
数据集大小	77.9 MiB
最后更新	2025年4月25日
创建于	2025年4月25日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。