-
Common_Crawl_Based_站点地图与机器人协议链接综合数据集2023
2026年1月15日 30 92 81
数据集概述 本数据集包含从Common Crawl 2023-50 WARC档案中提取的站点地图(Sitemaps)和机器人协议(robots.txt)链接综合列表,按Curlie.org目录顶级标签分类,提供各分类下的链接数量统计,可用于网络数据采集、网站结构分析等场景。 文件详解 站点地图压缩包 文件名称:all-...
-
机器学习网络钓鱼数据集_特征评估
2025年11月27日 30 71 56
数据集概述 该数据集包含从5000个钓鱼网页和5000个合法网页中提取的48个特征,网页分别采集于2015年1月至5月、2017年5月至6月。采用基于Selenium WebDriver的浏览器自动化框架提取特征,比正则表达式解析更精准,且为WEKA兼容格式。 文件详解 文件名称:Phishing_Legitimate_full.arff...



