网络钓鱼网址检测数据集PhishingURLWebsiteDetectionDataset-wendy0701
数据来源:互联网公开数据
标签:网络钓鱼, URL分析, 网页特征, 恶意网址, 机器学习, 安全检测, 风险评估, 数据标注
数据概述:
该数据集包含从互联网收集的网址数据,记录了用于检测网络钓鱼网站的各种网页特征。主要特征如下:
时间跨度:数据未明确标注时间,可视为静态数据集。
地理范围:数据覆盖全球范围内的网络钓鱼和合法网站。
数据维度:包括URL、Domain、TLD、URL相似度指数、URL中特殊字符数量、特殊字符比例、是否使用HTTPS、网页代码行数、网页标题、域名标题匹配分数、URL标题匹配分数、是否响应式设计、是否有描述信息、是否有社交网络链接、是否有提交按钮、是否有版权信息、图片数量、JS脚本数量、自引用数量以及标签(0代表正常网站,1代表钓鱼网站)等多个字段。
数据格式:CSV格式,文件名为phishing_url_website.csv,便于数据分析与建模。
数据来源:数据来源于网络爬虫和安全社区,已进行清洗和标注。
该数据集适合用于网络钓鱼检测、恶意网址识别和网页安全分析。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于网络安全、机器学习与数据挖掘领域的学术研究,如钓鱼网站识别算法优化、网页特征重要性分析等。
行业应用:为网络安全公司、安全软件开发商提供数据支持,用于构建钓鱼网站检测系统、浏览器安全插件、安全情报分析等。
决策支持:支持企业和个人用户进行风险评估,提高对钓鱼网站的识别能力,从而保护用户免受网络攻击。
教育和培训:作为网络安全课程的实训素材,帮助学生和研究人员深入理解钓鱼网站的特征与检测方法。
此数据集特别适合用于探索网页特征与钓鱼网站之间的关联,帮助用户构建有效的钓鱼网站检测模型,提升网络安全防护能力。