Unsplash数据集-图像数据分析-图像特征-搜索与用户互动
数据来源:互联网公开数据
标签:Unsplash,图像,照片,数据集,摄影,关键词,搜索,下载,机器学习,计算机视觉,数据分析
数据概述:
本数据集是Unsplash平台提供的,涵盖了大量图像数据,以及与图像相关的各种信息,包括摄影师信息、关键词、搜索数据、用户互动等。 Unsplash是一个提供高质量照片的平台,拥有超过25万名摄影师,并汇集了数百万次的搜索和各种使用场景。
数据集版本:
Unsplash数据集提供两个版本:
Lite数据集: 适用于商业和非商业用途,包含25,000张自然主题的照片、25,000个关键词和100万次搜索。
Full数据集: 仅适用于非商业用途,包含300万+张高质量照片、500万个关键词和超过2.5亿次搜索。
数据集结构:
Unsplash数据集由多个CSV文件组成,可以通过主键ID字段(通常是photo_id字段)进行合并:
photos.csv: 每行代表一张照片,包含照片属性、摄影师信息、图像URL和总体统计数据。
photo_id: Unsplash照片的ID
photo_url: 图像在unsplash.com上的永久链接
photo_image_url: 图像文件的URL。注意:这是一个动态URL,可以在图像上直接应用调整大小和自定义操作
photo_submitted_at: 照片提交到Unsplash的时间戳
photo_featured: 照片是否被推广到编辑提要
photo_width: 照片的宽度,以像素为单位
photo_height: 照片的高度,以像素为单位
photo_aspect_ratio: 照片的宽高比
photo_description: 摄影师撰写的照片描述
photographer_username: 摄影师在Unsplash上的用户名
photographer_first_name: 摄影师的名字
photographer_last_name: 摄影师的姓氏
exif_camera_make: 从EXIF数据中提取的相机品牌
exif_camera_model: 从EXIF数据中提取的相机型号
exif_iso: 相机的ISO设置,从EXIF数据中提取
exif_aperture_value: 相机的光圈设置,从EXIF数据中提取
exif_focal_length: 相机的焦距设置,从EXIF数据中提取
exif_exposure_time: 相机的曝光时间设置,从EXIF数据中提取
photo_location_name: 照片的拍摄地点
photo_location_latitude: 照片的纬度
photo_location_longitude: 照片的经度
photo_location_country: 照片拍摄的国家
photo_location_city: 照片拍摄的城市
stats_views: 在Unsplash平台上查看照片的总次数
stats_downloads: 通过Unsplash平台下载照片的总次数
ai_description: 由第三方AI生成的照片的文本描述
ai_primary_landmark_name: 照片中存在的地标名称,由第三方AI生成
ai_primary_landmark_latitude: 地标的纬度,由第三方AI生成
ai_primary_landmark_longitude: 地标的经度,由第三方AI生成
ai_primary_landmark_confidence: 第三方AI对地标的置信度
blur_hash: 照片的BlurHash哈希值
keywords.csv: 每行代表一个照片-关键词对,包含关键词与照片的关联信息以及搜索引擎为特定关键词转换照片的数据。
photo_id: Unsplash照片的ID
keyword: 关键词或搜索词
ai_service_1_confidence: 第三方AI对关键词的置信度(0-100)
ai_service_2_confidence: 另一个第三方AI对关键词的置信度(0-100)
suggested_by_user: 关键词是否由用户(人类)添加
collections.csv: 每行代表一个照片-收藏夹对。在Unsplash上,收藏夹是用户创建的照片分组,类似于Pinterest上的画板。
photo_id: Unsplash照片的ID
collection_id: 包含照片的Unsplash收藏夹的ID
collection_title: 包含照片的收藏夹的标题
photo_collected_at: 照片添加到收藏夹的时间戳
conversions.csv: 每行代表一次搜索转换。转换目前定义为用户选择图像以下载它。该数据集告诉您为搜索下载了哪张照片,来源国家/地区,以及一个匿名标识符以指示唯一用户。
converted_at: 转换事件的时间戳
conversion_type: 转换类型(目前仅为下载)
keyword: 导致转换的搜索关键词
photo_id: 转换的照片ID
anonymous_user_id: 匿名用户ID
conversion_country: 设备地理位置的国家代码
colors.csv: 每行代表照片中存在的主要颜色。
photo_id: Unsplash照片的ID
hex: 颜色的十六进制表示
red: RGB系统中照片的红色分量
green: RGB系统中照片的绿色分量
blue: RGB系统中照片的蓝色分量
keyword: 作为CSS颜色关键词的最接近的颜色名称
coverage: 颜色的像素覆盖率,以百分比表示
score: 照片中颜色的评分(包括焦点概念)
数据用途概述:
该数据集可用于多种图像处理、计算机视觉、自然语言处理和数据分析场景。 具体包括:
图像特征分析: 分析照片的各种属性,例如尺寸、描述、EXIF信息等。
关键词分析: 研究关键词与图像之间的关系,分析搜索趋势和用户兴趣。
图像分类与识别: 训练图像分类模型,例如风景、人物、物体等。
图像搜索: 构建图像搜索引擎,根据关键词或图像内容进行搜索。
用户行为分析: 分析用户的下载行为、浏览行为等,了解用户偏好。
情感分析: 分析图像描述的情感色彩。
图像内容生成: 基于关键词,生成图像描述。
生成对抗网络 (GAN) 应用: 用于图像生成、图像风格迁移等。
图像质量评估: 基于各种指标(如模糊度、颜色分布等)评估图像质量。
数据增强: 为其他图像相关的机器学习项目提供数据。