英国网上书店书籍元数据数据集-2023

英国网上书店书籍元数据数据集-2023 数据来源:互联网公开数据 标签:书籍元数据,网络爬虫,图书信息,分类,描述,图像,ISBN,评分,计算机视觉,NLP

数据概述: 本数据集包含从bookdepository.com网站爬取的大量书籍元数据,涵盖书籍的标题、描述、尺寸、类别、封面图像等关键信息。数据集中的每个样本包含以下字段:

  • authors: 作者(字符串列表)
  • bestsellers-rank: 最畅销排名(整数)
  • categories: 类别(整数列表,具体分类请参考authors.csv)
  • description: 描述(字符串)
  • dimension-x: 尺寸X(厘米,浮点数)
  • dimension-y: 尺寸Y(厘米,浮点数)
  • dimension-z: 尺寸Z(毫米,浮点数)
  • edition: 版本(字符串)
  • edition-statement: 版本说明(字符串)
  • for-ages: 适合年龄范围(字符串)
  • format: 格式(整数,具体格式请参考formats.csv)
  • id: 唯一标识符(整数)
  • illustrations-note: 插图说明
  • image-checksum: 封面图像校验和
  • image-path: 封面图像文件路径
  • image-url: 封面图像URL
  • imprint: 出版说明
  • index-date: 爬取日期(日期)
  • isbn10: ISBN-10(字符串)
  • isbn13: ISBN-13(字符串)
  • lang: 书籍语言列表
  • publication-date: 出版日期(日期)
  • publication-place: 出版地(标识符)
  • rating-avg: 评分平均值(0-5)
  • rating-count: 评分数量
  • title: 书名(字符串)
  • url: 相对URL(https://bookdepository.com + URL)
  • weight: 重量(千克)

数据集基于bookdepository.com的公开内容进行爬取,遵循其robots.txt协议。

数据用途概述: 该数据集适用于自然语言处理(NLP)、文本分类、计算机视觉等多种应用场景。研究人员可以使用此数据集进行文本挖掘、图像识别、分类模型训练等任务。此外,该数据集也可用于教育和培训,帮助学习者理解和应用相关技术。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 6, 2025, 09:18 (UTC)
创建于 五月 6, 2025, 08:07 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。