网络钓鱼网站检测与可解释性研究数据集-2024

网络钓鱼网站检测与可解释性研究数据集-2024 数据来源:互联网公开数据 标签:网络钓鱼,钓鱼网站,机器学习,可解释性,URL特征,安全,风险评估 数据概述: 本数据集用于训练机器学习模型,以检测网络钓鱼攻击,并研究这些模型的可解释性。数据集发布于2024年,包含了网络钓鱼网站和合法网站的样本。网络钓鱼样本收集自PhishTank和Tranco,而合法样本则从Alexa收集。数据集经过平衡处理,包含5,000个网络钓鱼样本和5,000个合法样本。每个样本由74个特征描述,这些特征是从整个URL、完全限定域名、路径名、文件名和参数中提取的。在这些特征中,70个是数值型,4个是二元型。目标变量也是二元型。

数据用途概述: 该数据集适用于机器学习模型训练、网络钓鱼检测算法开发、模型可解释性研究、安全风险评估等多种场景。 研究人员可以利用此数据构建和评估网络钓鱼检测模型;安全工程师可以基于此数据开发更有效的安全防护措施;数据科学家可以探索不同特征对网络钓鱼检测的影响,并提升模型的可解释性。 此外,该数据集也适合用于教育和培训,帮助学习者理解网络钓鱼攻击的特征和检测方法。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.2 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。