钓鱼网站特征分析与识别数据集
数据来源:互联网公开数据
标签:钓鱼网站,网络安全,机器学习,URL分析,风险评估,恶意网站,安全研究
数据概述:
本数据集旨在用于钓鱼网站的分析与检测,包含了多种特征,用于区分合法网站和钓鱼网站。数据集共包含31列,其中30列为特征,1列为目标变量。
特征描述:
URL相关特征:
Prefix_Suffix:检查URL中是否包含连字符(-),钓鱼网站常用于混淆用户。
double_slash_redirecting:检测URL是否使用双斜杠(//)进行重定向,可能表明钓鱼企图。
having_At_Symbol:识别URL中是否存在@符号,常被用于欺骗用户。
Shortining_Service:指示URL是否使用了缩短服务(如bit.ly, tinyurl)。
URL_Length:衡量URL的长度,钓鱼网站的URL通常较长。
having_IP_Address:检查是否使用IP地址代替域名,这通常是可疑行为。
域名相关特征:
having_Sub_Domain:评估子域名的数量,钓鱼网站可能包含过多的子域名。
SSLfinal_State:指示网站是否具有有效的SSL证书(安全连接)。
Domain_registeration_length:衡量域名注册的时长,钓鱼网站的域名寿命通常较短。
age_of_domain:域名的创建时间(天),较旧的域名通常更值得信赖。
DNSRecord:检查域名是否具有有效的DNS记录,钓鱼域名可能缺少这些记录。
网页相关特征:
Favicon:确定网站是否使用外部图标(favicon),这可能是钓鱼的迹象。
port:识别网站是否使用可疑或非标准端口。
HTTPS_token:检查URL中是否包含“HTTPS”但被欺骗性地使用。
Request_URL:衡量从不同域加载的外部资源的百分比。
URL_of_Anchor:分析锚标签(链接)及其可信度。
Links_in_tags:检查、和标签中的外部链接。
SFH (Server Form Handler, 服务器表单处理程序):确定表单操作是否以可疑方式处理。
Submitting_to_email:检查表单是否直接将数据提交到电子邮件而不是Web服务器。
Abnormal_URL:识别网站的URL结构是否与常见模式不一致。
Redirect:计算重定向的数量,钓鱼网站可能具有过多的重定向。
行为相关特征:
on_mouseover:检查网站在鼠标悬停时是否更改内容(用于欺骗技术)。
RightClick:检测是否禁用右键单击功能(钓鱼网站可能会禁用)。
popUpWindow:识别弹出窗口的存在,这可能用于欺骗用户。
Iframe:检查网站是否使用标签,通常用于钓鱼攻击。
流量和搜索引擎相关特征:
web_traffic:衡量网站的Alexa排名,钓鱼网站的流量通常较低。
Page_Rank:Google PageRank分数,钓鱼网站通常具有较低的PageRank。
Google_Index:检查网站是否被Google索引(钓鱼网站可能未被索引)。
Links_pointing_to_page:计算指向该网站的反向链接的数量。
Statistical_report:使用外部来源验证该网站是否已被报告为钓鱼网站。
目标变量:
Result:分类标签(1:合法网站,-1:钓鱼网站)
数据用途概述:
该数据集可用于:
✅ 机器学习模型 - 开发钓鱼网站检测分类器。
✅ 网络安全研究 - 了解钓鱼攻击的模式。
✅ 浏览器安全扩展 - 增强反钓鱼工具。