LegitPhish网络钓鱼与合法URL识别数据集

数据集概述

本数据集包含十万一千二百一十九条URL记录及十八个特征(含标签),其中网络钓鱼URL六万三千六百七十八条、合法URL三万七千五百四十条。数据来源可靠,网络钓鱼URL经人工验证,合法URL来自维基百科等可信平台,适用于URL安全检测模型训练与评估。

文件详解

  • 文件名称: LegitPhish Dataset/url_features_extracted1.csv
  • 文件格式: CSV (.csv)
  • 字段说明:
  • URL: 完整网址字符串
  • url_length: URL字符总长度
  • has_ip_address: 是否含IP地址(二进制标志1/0)
  • dot_count: URL中"."字符数量
  • https_flag: 是否使用HTTPS协议(二进制标志1/0)
  • url_entropy: URL字符串的香农熵(值越高随机性越强)
  • token_count: URL中的标记/单词数量
  • subdomain_count: 子域名数量
  • query_param_count: URL中"?"后的查询参数数量
  • tld_length: 顶级域名长度(如"com"为3)
  • path_length: 域名后路径部分长度
  • has_hyphen_in_domain: 域名是否含连字符"-"(二进制标志1/0)
  • number_of_digits: URL中的数字字符总数
  • tld_popularity: 顶级域名是否流行(二进制标志1/0)
  • suspicious_file_extension: 是否含可疑文件扩展名(二进制标志1/0)
  • ClassLabel: 目标标签(1为合法URL,0为网络钓鱼URL)

数据来源

URLHaus数据库、维基百科、Stack Overflow及其他知名恶意网站仓库

适用场景

  • 网络安全研究: 训练与评估URL-based网络钓鱼检测模型
  • 机器学习应用: 开发基于URL特征的二分类算法(区分合法/钓鱼网址)
  • 实时防护系统开发: 构建网站安全检测工具的核心数据集
  • 网络安全教学: 作为URL安全分析与特征工程的教学案例数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.73 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。