2022年网络威胁检测数据集-talhanazir168
数据来源:互联网公开数据
标签:网络威胁,入侵检测,机器学习,网络安全,数据,网络流量,用户行为,模拟攻击,军事网络,数据集
数据概述:
本数据集专用于研究和开发网络威胁及入侵检测的机器学习模型。数据集包含多种特征,描述了网络流量和用户行为,可用于识别恶意活动。该数据集模拟了一个典型的美国空军局域网络(LAN)环境下的多种入侵行为,数据来源于原始的TCP/IP数据包捕获。每个连接记录约100字节,连接分为正常和攻击两类,攻击类型具体标注。
数据集包括两个文件:
Train_data.csv:包含25,192条记录,共42列。
Test_data.csv:包含11,299条记录,共41列。
数据集特征描述:
- duration:连接时长(秒)。
- protocol_type:协议类型(如TCP、UDP、ICMP)。
- service:目标网络服务(如http、telnet、ftp)。
- flag:连接状态(正常或错误)。
- src_bytes:源到目标的数据字节数。
- dst_bytes:目标到源的数据字节数。
- land:1表示连接来自/指向同一主机/端口,否则为0。
- wrong_fragment:错误片段数量。
- urgent:紧急数据包数量。
- hot:"热"指标数量(如热登录)。
- num_failed_logins:失败登录尝试次数。
- logged_in:1表示成功登录,否则为0。
- num_compromised:被破坏条件数量。
- root_shell:1表示获取root shell,否则为0。
- su_attempted:1表示尝试使用su获取root权限,否则为0。
- num_root:root访问次数。
- num_file_creations:文件创建操作次数。
- num_shells:shell提示符数量。
- num_access_files:访问控制文件的操作次数。
- num_outbound_cmds:FTP会话中的外部命令数量。
- is_host_login:1表示登录属于主机,否则为0。
- is_guest_login:1表示登录为来宾登录,否则为0。
- count:过去两秒内与当前连接相同主机的连接数。
- srv_count:过去两秒内与当前连接相同服务的连接数。
- serror_rate:SYN错误连接的百分比。
- srv_serror_rate:相同服务中SYN错误连接的百分比。
- rerror_rate:REJ错误连接的百分比。
- srv_rerror_rate:相同服务中REJ错误连接的百分比。
- same_srv_rate:相同服务的连接百分比。
- diff_srv_rate:不同服务的连接百分比。
- srv_diff_host_rate:不同主机上相同服务的连接百分比。
- dst_host_count:与相同目标主机的连接数。
- dst_host_srv_count:与目标主机上相同服务的连接数。
- dst_host_same_srv_rate:目标主机上相同服务的连接百分比。
- dst_host_diff_srv_rate:目标主机上不同服务的连接百分比。
- dst_host_same_src_port_rate:与相同源端口的连接百分比。
- dst_host_srv_diff_host_rate:相同服务上不同主机的连接百分比。
- dst_host_serror_rate:目标主机上SYN错误连接的百分比。
- dst_host_srv_serror_rate:目标主机上相同服务中SYN错误连接的百分比。
- dst_host_rerror_rate:目标主机上REJ错误连接的百分比。
- dst_host_srv_rerror_rate:目标主机上相同服务中REJ错误连接的百分比。
- target:连接分类(仅在训练数据中)。
数据用途概述:
该数据集适用于网络威胁检测模型开发、入侵检测系统评估、网络安全研究以及相关教育场景。研究人员可以利用此数据集训练和评估机器学习模型,识别不同类型的网络攻击,从而提高网络安全防护能力。