该数据集旨在帮助分析和检测钓鱼网站。它包含各种特征,可帮助根据结构、安全和行为属性区分合法网站和钓鱼网站。
总列数: 31(30 个特征 + 1 个目标)
目标变量:( Result表明网站是钓鱼网站还是合法网站)
功能描述
基于 URL 的功能
Prefix_Suffix– 检查 URL 是否包含连字符 ( -),该符号常用于网络钓鱼域。
double_slash_redirecting– 检测 URL 是否使用 重定向//,这可能表示存在网络钓鱼尝试。
having_At_Symbol– 标识URL中的存在@,可用于欺骗用户。
Shortining_Service– 指示 URL 是否使用缩短服务(例如,bit.ly、tinyurl)。
URL_Length– 测量 URL 的长度;网络钓鱼 URL 往往较长。
having_IP_Address– 检查是否使用 IP 地址代替域名,这是可疑的。
基于领域的特征
having_Sub_Domain– 评估子域名的数量;钓鱼网站通常具有过多的子域名。
SSLfinal_State– 指示该网站是否具有有效的 SSL 证书(安全连接)。
Domain_registeration_length– 衡量域名注册的持续时间;网络钓鱼网站的寿命通常较短。
age_of_domain– 域名的使用年限(天数);域名越老,信任度越高。
DNSRecord– 检查域名是否具有有效的 DNS 记录;网络钓鱼域名可能缺少这些记录。
基于网页的功能
Favicon– 确定网站是否使用外部图标(这可能是网络钓鱼的迹象)。
port– 识别网站是否使用可疑或非标准端口。
HTTPS_token– 检查 URL 中是否包含“HTTPS”但被欺骗性地使用。
Request_URL– 测量从不同域加载的外部资源的百分比。
URL_of_Anchor– 分析锚标签(链接)及其可信度。
Links_in_tags– 检查、和标签中的外部链接。
SFH(服务器表单处理程序)—— 确定表单操作是否被可疑地处理。
Submitting_to_email– 检查表单是否将数据直接提交到电子邮件而不是网络服务器。
Abnormal_URL– 识别网站的 URL 结构是否与常见模式不一致。
Redirect– 计算重定向的次数;钓鱼网站可能有过多的重定向。
基于行为的特征
on_mouseover– 检查网站在鼠标悬停时是否会改变内容(用于欺骗技术)。
RightClick– 检测右键单击功能是否被禁用(网络钓鱼网站可能会禁用它)。
popUpWindow– 识别可用于欺骗用户的弹出窗口的存在。
Iframe– 检查网站是否使用标签,通常用于网络钓鱼攻击。
流量和搜索引擎功能
web_traffic– 衡量网站的 Alexa 排名;钓鱼网站的流量通常较低。
Page_Rank– Google PageRank 分数;网络钓鱼网站的 PageRank 通常较低。
Google_Index– 检查该网站是否被 Google 编入索引(钓鱼网站可能未被编入索引)。
Links_pointing_to_page– 计算指向该网站的反向链接的数量。
Statistical_report– 使用外部资源验证该网站是否已被举报为网络钓鱼。
目标变量
Result– 分类标签(1:合法,-1:网络钓鱼)
用法
该数据集的价值在于:
✅机器学习模型– 开发用于网络钓鱼检测的分类器。
✅ 网络安全研究– 了解网络钓鱼攻击的模式。
✅ 浏览器安全扩展– 增强反网络钓鱼工具