数据集概述
本数据集是用于训练IoT僵尸网络命令与控制(C\&C)分类器的扩展双向流数据。数据由ipfixprobe流量导出工具生成并转换为CSV文件,包含传统流信息和前三十个数据包的每数据包信息。数据集分为两部分:在真实ISP网络(CESNET2)边界捕获的良性流量(已匿名化IP/MAC地址),以及在受控实验室环境捕获的恶意流量(包含Tsunami、Gafgyt和Mirai三种主要IoT僵尸网络家族的C\&C通信行为,如心跳和命令)。数据已聚合为五分钟间隔的流记录,是网络安全和恶意流量检测研究的重要资源。
文件详解
- 整体文件结构
- 主文件:
cnc_IoT_dataset.zip (ZIP压缩包)
- 解压后主要文件夹:
benign(良性流量)、cnc(恶意流量)、README.md
- 良性流量文件
- 文件名称:
benign目录下遵循AN_p[端口号].agg.head.csv等模式(例如:AN_p80.agg.head.csv)
- 文件格式: CSV
- 恶意流量文件
- 文件名称:
cnc目录下按僵尸网络家族(kaiten, mirai, qbot)分类,包含cnc.csv(心跳通信)和command-XX.csv(命令通信)
- 文件格式: CSV
- 字段映射介绍:所有CSV文件均包含以下核心字段:
- 基本流信息:
SRC_IP (源IP)、DST_IP (目的IP)、SRC_PORT (源端口)、DST_PORT (目的端口)、PROTOCOL (传输协议编号)、BYTES/BYTES_REV (双向传输字节数)、PACKETS/PACKETS_REV (双向数据包数)。
- 时间与聚合信息:
TIME_FIRST/TIME_LAST (流的起始/结束时间戳)、COUNT (聚合的流记录数)。
- 控制信息:
TCP_FLAGS/TCP_FLAGS_REV (双向TCP标志逻辑或)、DIR_BIT_FIELD (WAN/LAN标识)、SRC_MAC/DST_MAC (源/目的MAC地址,已匿名化)。
- 每数据包信息(PPI):
PPI_PKT_DIRECTIONS (数据包方向数组)、PPI_PKT_FLAGS (数据包TCP标志数组)、PPI_PKT_LENGTHS (数据包负载长度数组)、PPI_PKT_TIMES (数据包时间戳数组),针对流中的前三十个数据包。
数据来源
- 良性部分:CESNET2网络边界计量点捕获的流量。
- 恶意部分:受控实验室环境中模拟Tsunami、Gafgyt、Mirai僵尸网络家族C\&C通信捕获。
- 项目资助:捷克共和国内政部(No. VJ02010024)和布拉格捷克技术大学(CTU)资助(No. SGS20/210/OHK3/3T/18)。
适用场景
- 网络安全流量分类与检测: 用于训练、测试和评估基于流特征的IoT C\&C通信检测模型和算法(如机器学习分类器)。
- 恶意软件通信协议分析: 深入分析Tsunami (IRC)、Gafgyt (简单文本) 和 Mirai (自定义二进制) 等不同IoT僵尸网络家族的C\&C通信协议和行为模式。
- 网络流量特征工程: 利用丰富的传统流和每数据包(PPI)特征,进行网络流量的特征提取和选择研究。
- ISP级良性流量建模: 利用CESNET2捕获的良性数据,建立或改进ISP网络中正常流量的基线模型,以提高恶意流量检测的准确性。