鸢尾花形态特征与分类数据集增强版-mathurinache

鸢尾花形态特征与分类数据集增强版-mathurinache 数据来源:互联网公开数据 标签:鸢尾花,植物学,分类,机器学习,生物学,花卉,特征,CTGAN,生成数据 数据概述: 本数据集基于R.A. Fisher在1936年发表的经典论文《分类问题的多重测量应用》中的鸢尾花数据集,并结合了使用CTGAN(条件表格生成对抗网络)生成的数据。原始数据集包含了三种鸢尾花(Iris)的品种,每种品种有50个样本,共150个样本。数据记录了每朵花的以下关键特征:

  • Id: 样本编号
  • SepalLengthCm: 花萼长度(厘米)
  • SepalWidthCm: 花萼宽度(厘米)
  • PetalLengthCm: 花瓣长度(厘米)
  • PetalWidthCm: 花瓣宽度(厘米)
  • Species: 鸢尾花品种(共三种,其中一种与其他两种线性可分,另两种线性不可分)

增强版数据集在原始数据集的基础上,利用CTGAN生成了额外的样本,以扩充数据集规模,并可能包含更多样化的特征组合,增强了数据集的适用性。

数据用途概述: 该数据集适用于多种场景,尤其适用于机器学习和数据分析的教学与研究。 具体包括:

  • 分类算法的训练与测试: 鸢尾花数据集是经典的分类问题,可用于测试和评估各种分类算法(如逻辑回归、支持向量机、决策树等)的性能。
  • 数据可视化: 可用于展示不同特征之间的关系,例如绘制散点图、箱线图等,以帮助理解数据分布和特征之间的关联。
  • 聚类分析: 可用于探索不同鸢尾花品种之间的相似性和差异性,进行聚类分析。
  • 数据生成与增强: CTGAN生成的数据可用于补充原始数据集,解决数据不平衡问题,或模拟更多样的特征组合,从而提升模型的泛化能力。
  • 生物学研究: 为研究鸢尾花的形态特征、生长环境等提供数据支持。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 22, 2025, 21:12 (UTC)
创建于 四月 22, 2025, 21:07 (UTC)