英国网上书店书籍元数据数据集-2023
数据来源:互联网公开数据
标签:书籍元数据,网络爬虫,图书信息,分类,描述,图像,ISBN,评分,计算机视觉,NLP
数据概述:
本数据集包含从bookdepository.com网站爬取的大量书籍元数据,涵盖书籍的标题、描述、尺寸、类别、封面图像等关键信息。数据集中的每个样本包含以下字段:
- authors: 作者(字符串列表)
- bestsellers-rank: 最畅销排名(整数)
- categories: 类别(整数列表,具体分类请参考authors.csv)
- description: 描述(字符串)
- dimension-x: 尺寸X(厘米,浮点数)
- dimension-y: 尺寸Y(厘米,浮点数)
- dimension-z: 尺寸Z(毫米,浮点数)
- edition: 版本(字符串)
- edition-statement: 版本说明(字符串)
- for-ages: 适合年龄范围(字符串)
- format: 格式(整数,具体格式请参考formats.csv)
- id: 唯一标识符(整数)
- illustrations-note: 插图说明
- image-checksum: 封面图像校验和
- image-path: 封面图像文件路径
- image-url: 封面图像URL
- imprint: 出版说明
- index-date: 爬取日期(日期)
- isbn10: ISBN-10(字符串)
- isbn13: ISBN-13(字符串)
- lang: 书籍语言列表
- publication-date: 出版日期(日期)
- publication-place: 出版地(标识符)
- rating-avg: 评分平均值(0-5)
- rating-count: 评分数量
- title: 书名(字符串)
- url: 相对URL(https://bookdepository.com + URL)
- weight: 重量(千克)
数据集基于bookdepository.com的公开内容进行爬取,遵循其robots.txt协议。
数据用途概述:
该数据集适用于自然语言处理(NLP)、文本分类、计算机视觉等多种应用场景。研究人员可以使用此数据集进行文本挖掘、图像识别、分类模型训练等任务。此外,该数据集也可用于教育和培训,帮助学习者理解和应用相关技术。