数据集概述
本数据集包含十万一千二百一十九条URL记录及十八个特征(含标签),其中网络钓鱼URL六万三千六百七十八条、合法URL三万七千五百四十条。数据来源可靠,网络钓鱼URL经人工验证,合法URL来自维基百科等可信平台,适用于URL安全检测模型训练与评估。
文件详解
- 文件名称: LegitPhish Dataset/url_features_extracted1.csv
- 文件格式: CSV (.csv)
- 字段说明:
- URL: 完整网址字符串
- url_length: URL字符总长度
- has_ip_address: 是否含IP地址(二进制标志1/0)
- dot_count: URL中"."字符数量
- https_flag: 是否使用HTTPS协议(二进制标志1/0)
- url_entropy: URL字符串的香农熵(值越高随机性越强)
- token_count: URL中的标记/单词数量
- subdomain_count: 子域名数量
- query_param_count: URL中"?"后的查询参数数量
- tld_length: 顶级域名长度(如"com"为3)
- path_length: 域名后路径部分长度
- has_hyphen_in_domain: 域名是否含连字符"-"(二进制标志1/0)
- number_of_digits: URL中的数字字符总数
- tld_popularity: 顶级域名是否流行(二进制标志1/0)
- suspicious_file_extension: 是否含可疑文件扩展名(二进制标志1/0)
- ClassLabel: 目标标签(1为合法URL,0为网络钓鱼URL)
数据来源
URLHaus数据库、维基百科、Stack Overflow及其他知名恶意网站仓库
适用场景
- 网络安全研究: 训练与评估URL-based网络钓鱼检测模型
- 机器学习应用: 开发基于URL特征的二分类算法(区分合法/钓鱼网址)
- 实时防护系统开发: 构建网站安全检测工具的核心数据集
- 网络安全教学: 作为URL安全分析与特征工程的教学案例数据