用于分析和检测钓鱼网站的有用数据集

该数据集旨在帮助分析和检测钓鱼网站。它包含各种特征,可帮助根据结构、安全和行为属性区分合法网站和钓鱼网站。 总列数: 31(30 个特征 + 1 个目标) 目标变量:( Result表明网站是钓鱼网站还是合法网站) 功能描述 基于 URL 的功能 Prefix_Suffix– 检查 URL 是否包含连字符 ( -),该符号常用于网络钓鱼域。 double_slash_redirecting– 检测 URL 是否使用 重定向//,这可能表示存在网络钓鱼尝试。 having_At_Symbol– 标识URL中的存在@,可用于欺骗用户。 Shortining_Service– 指示 URL 是否使用缩短服务(例如,bit.ly、tinyurl)。 URL_Length– 测量 URL 的长度;网络钓鱼 URL 往往较长。 having_IP_Address– 检查是否使用 IP 地址代替域名,这是可疑的。 基于领域的特征 having_Sub_Domain– 评估子域名的数量;钓鱼网站通常具有过多的子域名。 SSLfinal_State– 指示该网站是否具有有效的 SSL 证书(安全连接)。 Domain_registeration_length– 衡量域名注册的持续时间;网络钓鱼网站的寿命通常较短。 age_of_domain– 域名的使用年限(天数);域名越老,信任度越高。 DNSRecord– 检查域名是否具有有效的 DNS 记录;网络钓鱼域名可能缺少这些记录。 基于网页的功能 Favicon– 确定网站是否使用外部图标(这可能是网络钓鱼的迹象)。 port– 识别网站是否使用可疑或非标准端口。 HTTPS_token– 检查 URL 中是否包含“HTTPS”但被欺骗性地使用。 Request_URL– 测量从不同域加载的外部资源的百分比。 URL_of_Anchor– 分析锚标签(链接)及其可信度。 Links_in_tags– 检查、和标签中的外部链接。 SFH(服务器表单处理程序)—— 确定表单操作是否被可疑地处理。 Submitting_to_email– 检查表单是否将数据直接提交到电子邮件而不是网络服务器。 Abnormal_URL– 识别网站的 URL 结构是否与常见模式不一致。 Redirect– 计算重定向的次数;钓鱼网站可能有过多的重定向。 基于行为的特征 on_mouseover– 检查网站在鼠标悬停时是否会改变内容(用于欺骗技术)。 RightClick– 检测右键单击功能是否被禁用(网络钓鱼网站可能会禁用它)。 popUpWindow– 识别可用于欺骗用户的弹出窗口的存在。 Iframe– 检查网站是否使用标签,通常用于网络钓鱼攻击。 流量和搜索引擎功能 web_traffic– 衡量网站的 Alexa 排名;钓鱼网站的流量通常较低。 Page_Rank– Google PageRank 分数;网络钓鱼网站的 PageRank 通常较低。 Google_Index– 检查该网站是否被 Google 编入索引(钓鱼网站可能未被编入索引)。 Links_pointing_to_page– 计算指向该网站的反向链接的数量。 Statistical_report– 使用外部资源验证该网站是否已被举报为网络钓鱼。 目标变量 Result– 分类标签(1:合法,-1:网络钓鱼) 用法 该数据集的价值在于: ✅机器学习模型– 开发用于网络钓鱼检测的分类器。 ✅ 网络安全研究– 了解网络钓鱼攻击的模式。 ✅ 浏览器安全扩展– 增强反网络钓鱼工具

数据与资源

附加信息

字段
最后更新 三月 6, 2025, 02:26 (UTC)
创建于 三月 6, 2025, 02:25 (UTC)