机器学习网络钓鱼数据集_特征评估

数据集概述

该数据集包含从5000个钓鱼网页和5000个合法网页中提取的48个特征,网页分别采集于2015年1月至5月、2017年5月至6月。采用基于Selenium WebDriver的浏览器自动化框架提取特征,比正则表达式解析更精准,且为WEKA兼容格式。

文件详解

  • 文件名称:Phishing_Legitimate_full.arff
  • 文件格式:ARFF(.arff)
  • 内容说明:包含5000条钓鱼网页数据与5000条合法网页数据,共48个特征字段,无训练/测试、数据/标签或原始/处理数据的拆分,可直接用于WEKA平台的机器学习分析。

数据来源

钓鱼网页来源:PhishTank、OpenPhish;合法网页来源:Alexa、Common Crawl

适用场景

  • 网络安全研究:分析钓鱼网页与合法网页的特征差异
  • 机器学习模型开发:训练和基准测试钓鱼网站分类模型
  • 概念验证实验:快速验证新的钓鱼检测算法或特征有效性
  • 反钓鱼技术优化:为反钓鱼工具提供特征工程的数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.2 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。