网络钓鱼链接检测特征数据集-2023年-winson13
数据来源:互联网公开数据
标签:网络钓鱼,链接检测,URL分析,安全,网络安全,特征提取,机器学习,数据分析
数据概述:
本数据集专门用于钓鱼链接检测,旨在帮助识别URL是否为钓鱼链接。数据集包含从URL、HTML内容和域名中提取的多种特征,适用于预测URL是否为钓鱼链接。数据格式兼容常见的机器学习和数据分析工具。
数据集包含以下关键字段:
- url: 完整的URL地址
- length_of_url: URL长度
- num_of_dots: URL中的点号数量
- num_of_hyphens: URL中的连字符数量
- num_of_slashes: URL中的斜杠数量
- num_of_question_marks: URL中的问号数量
- num_of_ampersands: URL中的与号数量
- num_of_dollar_signs: URL中的美元符号数量
- num_of_https: URL是否包含https协议
- num_of_http: URL是否包含http协议
- num_of_ip: URL是否包含IP地址
- domain_age: 域名年龄
- domain_length: 域名长度
- num_of_subdomains: 子域名数量
- server_ip: 服务器IP地址
- num_of_redirects: 重定向次数
- content_length: HTML内容长度
- num_of_iframes: HTML中iframe标签数量
- num_of_form_tags: HTML中form标签数量
- num_of_label_tags: HTML中label标签数量
- num_of_script_tags: HTML中script标签数量
- num_of_meta_tags: HTML中meta标签数量
数据用途概述:
该数据集适用于网络安全研究、机器学习模型训练、钓鱼检测算法开发等多种场景。研究人员可以利用此数据集训练和评估模型,提高钓鱼链接检测的准确性;网络安全专家可以基于此数据制定更有效的防护策略;教育机构可以利用数据集进行网络安全教育和培训,提升公众的网络安全意识。