网络钓鱼URL检测数据集-PhiUSIIL数据集
数据来源:互联网公开数据
标签:网络安全,钓鱼,URL,恶意网址,机器学习,风险评估,网络钓鱼检测,安全研究
数据概述:
PhiUSIIL数据集是一个大型数据集,包含了134,850个合法URL和100,945个钓鱼URL。该数据集中的URL大多为最新URL。数据集从网页的源代码和URL中提取了特征,包括CharContinuationRate, URLTitleMatchScore, URLCharProb和TLDLegitimateProb等,这些特征都是从现有特征中衍生而来。
关于该数据集的介绍性论文:
PhiUSIIL: 基于相似度指数和增量学习的多元安全配置钓鱼URL检测框架,作者:Arvind Prasad和Shalini Chandra, 2024年发表于《计算机与安全》期刊。
附加变量信息:
可以忽略“FILENAME”列。
类别标签:
标签1对应合法URL,标签0对应钓鱼URL。
数据用途概述:
该数据集适用于网络钓鱼检测、URL分类、恶意网址识别等多种场景。研究人员可以利用此数据开发和评估机器学习模型,用于识别和拦截钓鱼网站。安全工程师可以利用此数据改进现有的安全防护系统,提高对钓鱼攻击的防御能力。此外,该数据集也适合用于网络安全教育和培训,帮助学习者了解钓鱼攻击的特征和识别方法。