优质书籍推荐数据集-2021-alexanderfrosati
数据来源:互联网公开数据
标签:书籍推荐,用户评价,图书元数据,标签分类,好读网,评分数据,图书阅读计划
数据概述:
本数据集包含10,000本流行书籍的评分记录。从互联网上收集的数据中提取,每本书通常有100条评分记录,但部分书籍的评分较少。评分范围为1到5分。
书籍ID和用户ID都是连续编号的,书籍ID范围为1到10,000,用户ID范围为1到53,424。所有用户至少进行了两次评分,每个用户的评分中位数为8次。
数据集中还包含用户标记为“想读”的书籍ID、每本书的元数据(包括作者、出版年份等)以及用户给书籍分配的标签。
数据集包含以下文件:
ratings.csv:包含书籍评分记录。
to_read.csv:包含每个用户标记为“想读”的书籍ID,以用户ID和书籍ID的配对形式。
books.csv:包含每本书的元数据,包括好读网ID、作者、书名、平均评分等。
book_tags.csv:包含用户为书籍分配的标签/书架/类别,标签以ID形式表示。
tags.csv:将标签ID转换为标签名称。
数据集中的好读网ID用于标识书籍的不同版本。goodreads_book_id和best_book_id通常指向特定书籍的最流行版本,而goodreads_work_id表示书籍的抽象概念。可以使用这些ID创建如下URL:
https://www.goodreads.com/book/show/书籍ID
https://www.goodreads.com/work/editions/作品ID
数据用途概述:
该数据集适用于书籍推荐系统开发、用户行为分析、图书元数据分析、标签分类研究等多个场景。研究人员和开发者可以利用此数据集进行推荐算法的研究与优化;教育者可以使用此数据集进行数据分析教学;图书出版商和销售平台可以分析用户偏好,优化书籍推荐策略。