英国网上书店书籍元数据数据集-2023

关注者: 0

资源积分: 30

分类

互联网数据

互联网公开数据

授权

没有提供授权

数据集

英国网上书店书籍元数据数据集-2023

英国网上书店书籍元数据数据集-2023 数据来源：互联网公开数据标签：书籍元数据,网络爬虫,图书信息,分类,描述,图像,ISBN,评分,计算机视觉,NLP

数据概述：本数据集包含从bookdepository.com网站爬取的大量书籍元数据，涵盖书籍的标题、描述、尺寸、类别、封面图像等关键信息。数据集中的每个样本包含以下字段：

authors: 作者（字符串列表）
bestsellers-rank: 最畅销排名（整数）
categories: 类别（整数列表，具体分类请参考authors.csv）
description: 描述（字符串）
dimension-x: 尺寸X（厘米，浮点数）
dimension-y: 尺寸Y（厘米，浮点数）
dimension-z: 尺寸Z（毫米，浮点数）
edition: 版本（字符串）
edition-statement: 版本说明（字符串）
for-ages: 适合年龄范围（字符串）
format: 格式（整数，具体格式请参考formats.csv）
id: 唯一标识符（整数）
illustrations-note: 插图说明
image-checksum: 封面图像校验和
image-path: 封面图像文件路径
image-url: 封面图像URL
imprint: 出版说明
index-date: 爬取日期（日期）
isbn10: ISBN-10（字符串）
isbn13: ISBN-13（字符串）
lang: 书籍语言列表
publication-date: 出版日期（日期）
publication-place: 出版地（标识符）
rating-avg: 评分平均值（0-5）
rating-count: 评分数量
title: 书名（字符串）
url: 相对URL（https://bookdepository.com + URL）
weight: 重量（千克）

数据集基于bookdepository.com的公开内容进行爬取，遵循其robots.txt协议。

数据用途概述：该数据集适用于自然语言处理（NLP）、文本分类、计算机视觉等多种应用场景。研究人员可以使用此数据集进行文本挖掘、图像识别、分类模型训练等任务。此外，该数据集也可用于教育和培训，帮助学习者理解和应用相关技术。

数据与资源

英国网上书店书籍元数据数据集-2023.zipZIP
466.58 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	466.58 MiB
最后更新	2025年5月6日
创建于	2025年5月6日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？