钓鱼网站特征分析与识别数据集

钓鱼网站特征分析与识别数据集 数据来源:互联网公开数据 标签:钓鱼网站,网络安全,机器学习,URL分析,风险评估,恶意网站,安全研究 数据概述: 本数据集旨在用于钓鱼网站的分析与检测,包含了多种特征,用于区分合法网站和钓鱼网站。数据集共包含31列,其中30列为特征,1列为目标变量。

特征描述:

URL相关特征: Prefix_Suffix:检查URL中是否包含连字符(-),钓鱼网站常用于混淆用户。 double_slash_redirecting:检测URL是否使用双斜杠(//)进行重定向,可能表明钓鱼企图。 having_At_Symbol:识别URL中是否存在@符号,常被用于欺骗用户。 Shortining_Service:指示URL是否使用了缩短服务(如bit.ly, tinyurl)。 URL_Length:衡量URL的长度,钓鱼网站的URL通常较长。 having_IP_Address:检查是否使用IP地址代替域名,这通常是可疑行为。

域名相关特征: having_Sub_Domain:评估子域名的数量,钓鱼网站可能包含过多的子域名。 SSLfinal_State:指示网站是否具有有效的SSL证书(安全连接)。 Domain_registeration_length:衡量域名注册的时长,钓鱼网站的域名寿命通常较短。 age_of_domain:域名的创建时间(天),较旧的域名通常更值得信赖。 DNSRecord:检查域名是否具有有效的DNS记录,钓鱼域名可能缺少这些记录。

网页相关特征: Favicon:确定网站是否使用外部图标(favicon),这可能是钓鱼的迹象。 port:识别网站是否使用可疑或非标准端口。 HTTPS_token:检查URL中是否包含“HTTPS”但被欺骗性地使用。 Request_URL:衡量从不同域加载的外部资源的百分比。 URL_of_Anchor:分析锚标签(链接)及其可信度。 Links_in_tags:检查、和标签中的外部链接。 SFH (Server Form Handler, 服务器表单处理程序):确定表单操作是否以可疑方式处理。 Submitting_to_email:检查表单是否直接将数据提交到电子邮件而不是Web服务器。 Abnormal_URL:识别网站的URL结构是否与常见模式不一致。 Redirect:计算重定向的数量,钓鱼网站可能具有过多的重定向。

行为相关特征: on_mouseover:检查网站在鼠标悬停时是否更改内容(用于欺骗技术)。 RightClick:检测是否禁用右键单击功能(钓鱼网站可能会禁用)。 popUpWindow:识别弹出窗口的存在,这可能用于欺骗用户。 Iframe:检查网站是否使用标签,通常用于钓鱼攻击。

流量和搜索引擎相关特征: web_traffic:衡量网站的Alexa排名,钓鱼网站的流量通常较低。 Page_Rank:Google PageRank分数,钓鱼网站通常具有较低的PageRank。 Google_Index:检查网站是否被Google索引(钓鱼网站可能未被索引)。 Links_pointing_to_page:计算指向该网站的反向链接的数量。 Statistical_report:使用外部来源验证该网站是否已被报告为钓鱼网站。

目标变量: Result:分类标签(1:合法网站,-1:钓鱼网站)

数据用途概述: 该数据集可用于: ✅ 机器学习模型 - 开发钓鱼网站检测分类器。 ✅ 网络安全研究 - 了解钓鱼攻击的模式。 ✅ 浏览器安全扩展 - 增强反钓鱼工具。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 15, 2025, 06:02 (UTC)
创建于 四月 15, 2025, 06:02 (UTC)