数据集

用于分析和检测钓鱼网站的有用数据集

该数据集旨在帮助分析和检测钓鱼网站。它包含各种特征，可帮助根据结构、安全和行为属性区分合法网站和钓鱼网站。总列数： 31（30 个特征 + 1 个目标）目标变量：（ Result表明网站是钓鱼网站还是合法网站）功能描述基于 URL 的功能 Prefix_Suffix– 检查 URL 是否包含连字符 ( -)，该符号常用于网络钓鱼域。 double_slash_redirecting– 检测 URL 是否使用重定向//，这可能表示存在网络钓鱼尝试。 having_At_Symbol– 标识URL中的存在@，可用于欺骗用户。 Shortining_Service– 指示 URL 是否使用缩短服务（例如，bit.ly、tinyurl）。 URL_Length– 测量 URL 的长度；网络钓鱼 URL 往往较长。 having_IP_Address– 检查是否使用 IP 地址代替域名，这是可疑的。基于领域的特征 having_Sub_Domain– 评估子域名的数量；钓鱼网站通常具有过多的子域名。 SSLfinal_State– 指示该网站是否具有有效的 SSL 证书（安全连接）。 Domain_registeration_length– 衡量域名注册的持续时间；网络钓鱼网站的寿命通常较短。 age_of_domain– 域名的使用年限（天数）；域名越老，信任度越高。 DNSRecord– 检查域名是否具有有效的 DNS 记录；网络钓鱼域名可能缺少这些记录。基于网页的功能 Favicon– 确定网站是否使用外部图标（这可能是网络钓鱼的迹象）。 port– 识别网站是否使用可疑或非标准端口。 HTTPS_token– 检查 URL 中是否包含“HTTPS”但被欺骗性地使用。 Request_URL– 测量从不同域加载的外部资源的百分比。 URL_of_Anchor– 分析锚标签（链接）及其可信度。 Links_in_tags– 检查、和标签中的外部链接。 SFH（服务器表单处理程序）—— 确定表单操作是否被可疑地处理。 Submitting_to_email– 检查表单是否将数据直接提交到电子邮件而不是网络服务器。 Abnormal_URL– 识别网站的 URL 结构是否与常见模式不一致。 Redirect– 计算重定向的次数；钓鱼网站可能有过多的重定向。基于行为的特征 on_mouseover– 检查网站在鼠标悬停时是否会改变内容（用于欺骗技术）。 RightClick– 检测右键单击功能是否被禁用（网络钓鱼网站可能会禁用它）。 popUpWindow– 识别可用于欺骗用户的弹出窗口的存在。 Iframe– 检查网站是否使用标签，通常用于网络钓鱼攻击。流量和搜索引擎功能 web_traffic– 衡量网站的 Alexa 排名；钓鱼网站的流量通常较低。 Page_Rank– Google PageRank 分数；网络钓鱼网站的 PageRank 通常较低。 Google_Index– 检查该网站是否被 Google 编入索引（钓鱼网站可能未被编入索引）。 Links_pointing_to_page– 计算指向该网站的反向链接的数量。 Statistical_report– 使用外部资源验证该网站是否已被举报为网络钓鱼。目标变量 Result– 分类标签（1：合法，-1：网络钓鱼）用法该数据集的价值在于： ✅机器学习模型– 开发用于网络钓鱼检测的分类器。 ✅ 网络安全研究– 了解网络钓鱼攻击的模式。 ✅ 浏览器安全扩展– 增强反网络钓鱼工具

数据与资源

用于分析和检测钓鱼网站的有用数据集.csvcsv
0.75 MiB

下载

附加信息

字段	值
数据集大小	0.75 MiB
最后更新	2025年3月6日
创建于	2025年3月6日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

用于分析和检测钓鱼网站的有用数据集

数据与资源

附加信息

注册成功！