Goodreads平台书籍用户评价与标签数据集-600万条评价
数据来源:互联网公开数据
标签:书籍,评价,阅读,推荐,用户行为,图书,Goodreads,标签,元数据
数据概述:
本数据集是Goodreads平台上的书籍用户评价数据集的更新版本,包含了600万条用户对一万本最受欢迎(即评价数量最多)书籍的评分数据。除了评分数据,数据集还包括用户标记的“想读”书籍、书籍元数据(作者、年份等)以及用户为书籍添加的标签/书架/流派信息。
数据主要包含以下几个文件:
* ratings.csv:包含用户对书籍的评分,按时间排序。评分范围从1到5,其中book_id和user_id是连续的。书籍ID范围为1-10000,用户ID范围为1-53424。
* to_read.csv:提供了每个用户标记为“想读”的书籍ID,以user_id, book_id对的形式,按时间排序。
* books.csv:包含了每本书籍的元数据,包括Goodreads ID、作者、标题、平均评分等。这些元数据从Goodreads XML文件中提取。
* book_tags.csv:包含了用户为书籍分配的标签/书架/流派,标签以ID表示。
* tags.csv:将标签ID转换为标签名称。
需要注意的是,ratings.csv和to_read.csv中的book_id对应的是work_id,而不是goodreads_book_id,这意味着不同版本的书籍的评分被聚合在一起。
数据用途概述:
该数据集适用于多种场景,包括书籍推荐系统构建、用户阅读行为分析、图书市场趋势研究、书籍标签分析等。研究人员可以利用此数据分析用户的阅读偏好,构建个性化推荐模型;市场分析师可以研究不同书籍类型的受欢迎程度和用户评价之间的关系;此外,该数据集也适用于机器学习和数据挖掘领域的实践,例如情感分析、协同过滤等。