数据集概述
本数据集是GEO-Bench数据集的一个子集,由ServiceNow基于Abuaiadah等人2022年的原始数据修改而来。包含14个文件,涵盖数据集说明、许可信息、任务规格、不同比例的训练分区、波段统计及数据压缩包等内容,适用于地理基准测试相关的模型训练与评估。
文件详解
- 说明与许可文件
- 文件名称:README、LICENSE
- 文件格式:无扩展名
- 字段映射介绍:README包含数据集基本信息及修改记录;LICENSE说明数据使用许可规则
- 任务规格文件
- 文件名称:task_specs.pkl
- 文件格式:PKL
- 字段映射介绍:存储地理基准测试任务的规格参数
- 训练分区文件
- 文件名称:1.00x_train_partition.json、0.50x_train_partition.json、0.20x_train_partition.json、0.05x_train_partition.json、0.01x_train_partition.json、default_partition.json
- 文件格式:JSON
- 字段映射介绍:包含'train'(训练集)、'valid'(验证集)、'test'(测试集)三类数据分区的索引信息,不同文件名对应不同比例的训练数据划分
- 波段统计文件
- 文件名称:band_stats.json
- 文件格式:JSON
- 字段映射介绍:包含'Blue'(蓝光波段)、'Green'(绿光波段)、'Red'(红光波段)、'label'(标签)的统计信息
- 数据压缩包
- 文件名称:data.zip
- 文件格式:ZIP
- 字段映射介绍:包含数据集的原始数据内容
数据来源
ServiceNow修改自Abuaiadah et al. (2022)的原始数据,原始数据地址为https://zenodo.org/record/5908869
适用场景
- 地理基准测试模型训练: 利用不同比例的训练分区文件,进行遥感图像分类等模型的训练与优化
- 遥感波段数据分析: 通过band_stats.json中的波段统计信息,研究多光谱遥感数据的特征分布
- 模型泛化能力评估: 对比不同训练数据比例下模型的性能,分析数据量对模型效果的影响
- 地理信息处理算法测试: 基于task_specs.pkl的任务规格,验证地理信息处理算法的有效性