NBAIOT类型分类预处理数据集-avneets2103

NBAIOT类型分类预处理数据集-avneets2103 数据来源:互联网公开数据 标签:NBAIOT,数据预处理,机器学习,网络安全,物联网,数据集,分类,平衡数据集,PCA,训练集,验证集,测试集

数据概述: 本数据集是著名的NBAIOT数据集的预处理版本,来自Kaggle平台。原始数据集虽然非常有用,但结构较为复杂。为了便于使用,本数据集进行了以下预处理步骤:

  1. 将多个文件合并成一个数据框。
  2. 添加了类型输出列,标识每个样本所属的类型。
  3. 对数据集进行了平衡处理,确保每种类型的Botnet样本比例相同(原始数据集存在严重的类别不平衡问题)。
  4. 移除了重复样本。
  5. 对数据进行了标准化处理。
  6. 应用了主成分分析(PCA),将数据降维到32个主成分或减少1%的方差。
  7. 将数据集拆分为训练集、验证集和测试集,采用随机分割的方式,每种分割的比例为7:3,最终得到的总体比例为训练集:验证集:测试集 = 49:21:30。

数据用途概述: 该数据集适用于机器学习和网络安全研究领域,特别适用于物联网(IoT)设备的安全分析和Botnet检测。研究人员可以利用此数据集进行模型训练、验证和测试,评估不同类型Botnet的识别效果;教育者可以将其用于教学,帮助学生理解和掌握机器学习在网络安全中的应用;此外,数据集也可用于开发和优化IoT设备的安全防护方案。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 16:45 (UTC)
创建于 五月 31, 2025, 16:44 (UTC)