数据集概述
本数据集为研究“探索性景观分析对采样策略高度敏感”提供特征值数据,包含R包flacco中所有“低成本”特征值,基于5种采样策略(Random、Randu、LHS、iLHS、Sobol)在5维空间计算,同时提供分类结果、统计数据及可视化图表相关文件,共7个文件。
文件详解
- CSV数据文件
features_summary_dim_5_ppsn.csv:CSV格式,包含每种特征的100个值
features_summary_dim_5_ppsn_median.csv:CSV格式,包含每种特征100个值的中位数
stats50_knn_dt.csv:CSV格式,提供热图和箱线图的中位数、四分位距(IQR)原始数据,字段含训练方法、测试方法、样本量、knn中位数、knn IQR、dt中位数、dt IQR
result_classif_knn100.csv:CSV格式,包含100次分类的准确率数据,字段含训练方法、测试方法、点数、得分
result_classif_dt100.csv:CSV格式,包含100次分类的准确率数据,字段含训练方法、测试方法、点数、得分
- 代码文件
sampling_ppsn.py:Python格式,用于生成计算特征值的样本点的代码
- 压缩文件
PPSN_feature_plots.zip:ZIP格式,包含24个COCO函数上Random、LHS、Sobol三种采样策略的特征值直方图
数据来源
研究“Exploratory Landscape Analysis is Strongly Sensitive to the Sampling Strategy”
适用场景
- 探索性景观分析研究:用于分析不同采样策略对探索性景观分析特征值的影响
- 采样策略评估:比较Random、Randu、LHS、iLHS、Sobol五种采样策略的性能差异
- 机器学习分类分析:基于分类准确率数据研究模型在不同采样策略下的表现
- 数据可视化研究:利用特征值直方图分析特征分布规律
- 统计分析:通过中位数、四分位距等统计数据进行探索性数据分析