NBAIOT类型分类预处理数据集-avneets2103
数据来源:互联网公开数据
标签:NBAIOT,数据预处理,机器学习,网络安全,物联网,数据集,分类,平衡数据集,PCA,训练集,验证集,测试集
数据概述:
本数据集是著名的NBAIOT数据集的预处理版本,来自Kaggle平台。原始数据集虽然非常有用,但结构较为复杂。为了便于使用,本数据集进行了以下预处理步骤:
- 将多个文件合并成一个数据框。
- 添加了类型输出列,标识每个样本所属的类型。
- 对数据集进行了平衡处理,确保每种类型的Botnet样本比例相同(原始数据集存在严重的类别不平衡问题)。
- 移除了重复样本。
- 对数据进行了标准化处理。
- 应用了主成分分析(PCA),将数据降维到32个主成分或减少1%的方差。
- 将数据集拆分为训练集、验证集和测试集,采用随机分割的方式,每种分割的比例为7:3,最终得到的总体比例为训练集:验证集:测试集 = 49:21:30。
数据用途概述:
该数据集适用于机器学习和网络安全研究领域,特别适用于物联网(IoT)设备的安全分析和Botnet检测。研究人员可以利用此数据集进行模型训练、验证和测试,评估不同类型Botnet的识别效果;教育者可以将其用于教学,帮助学生理解和掌握机器学习在网络安全中的应用;此外,数据集也可用于开发和优化IoT设备的安全防护方案。