优质书籍推荐数据集-2021-alexanderfrosati

优质书籍推荐数据集-2021-alexanderfrosati 数据来源:互联网公开数据 标签:书籍推荐,用户评价,图书元数据,标签分类,好读网,评分数据,图书阅读计划

数据概述: 本数据集包含10,000本流行书籍的评分记录。从互联网上收集的数据中提取,每本书通常有100条评分记录,但部分书籍的评分较少。评分范围为1到5分。

书籍ID和用户ID都是连续编号的,书籍ID范围为1到10,000,用户ID范围为1到53,424。所有用户至少进行了两次评分,每个用户的评分中位数为8次。

数据集中还包含用户标记为“想读”的书籍ID、每本书的元数据(包括作者、出版年份等)以及用户给书籍分配的标签。

数据集包含以下文件: ratings.csv:包含书籍评分记录。 to_read.csv:包含每个用户标记为“想读”的书籍ID,以用户ID和书籍ID的配对形式。 books.csv:包含每本书的元数据,包括好读网ID、作者、书名、平均评分等。 book_tags.csv:包含用户为书籍分配的标签/书架/类别,标签以ID形式表示。 tags.csv:将标签ID转换为标签名称。

数据集中的好读网ID用于标识书籍的不同版本。goodreads_book_id和best_book_id通常指向特定书籍的最流行版本,而goodreads_work_id表示书籍的抽象概念。可以使用这些ID创建如下URL: https://www.goodreads.com/book/show/书籍ID https://www.goodreads.com/work/editions/作品ID

数据用途概述: 该数据集适用于书籍推荐系统开发、用户行为分析、图书元数据分析、标签分类研究等多个场景。研究人员和开发者可以利用此数据集进行推荐算法的研究与优化;教育者可以使用此数据集进行数据分析教学;图书出版商和销售平台可以分析用户偏好,优化书籍推荐策略。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 31.16 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。