鸢尾花形态特征与分类数据集增强版-mathurinache
数据来源:互联网公开数据
标签:鸢尾花,植物学,分类,机器学习,生物学,花卉,特征,CTGAN,生成数据
数据概述:
本数据集基于R.A. Fisher在1936年发表的经典论文《分类问题的多重测量应用》中的鸢尾花数据集,并结合了使用CTGAN(条件表格生成对抗网络)生成的数据。原始数据集包含了三种鸢尾花(Iris)的品种,每种品种有50个样本,共150个样本。数据记录了每朵花的以下关键特征:
- Id: 样本编号
- SepalLengthCm: 花萼长度(厘米)
- SepalWidthCm: 花萼宽度(厘米)
- PetalLengthCm: 花瓣长度(厘米)
- PetalWidthCm: 花瓣宽度(厘米)
- Species: 鸢尾花品种(共三种,其中一种与其他两种线性可分,另两种线性不可分)
增强版数据集在原始数据集的基础上,利用CTGAN生成了额外的样本,以扩充数据集规模,并可能包含更多样化的特征组合,增强了数据集的适用性。
数据用途概述:
该数据集适用于多种场景,尤其适用于机器学习和数据分析的教学与研究。 具体包括:
- 分类算法的训练与测试: 鸢尾花数据集是经典的分类问题,可用于测试和评估各种分类算法(如逻辑回归、支持向量机、决策树等)的性能。
- 数据可视化: 可用于展示不同特征之间的关系,例如绘制散点图、箱线图等,以帮助理解数据分布和特征之间的关联。
- 聚类分析: 可用于探索不同鸢尾花品种之间的相似性和差异性,进行聚类分析。
- 数据生成与增强: CTGAN生成的数据可用于补充原始数据集,解决数据不平衡问题,或模拟更多样的特征组合,从而提升模型的泛化能力。
- 生物学研究: 为研究鸢尾花的形态特征、生长环境等提供数据支持。