URL垃圾邮件分类数据集

URL垃圾邮件分类数据集 数据来源:互联网公开数据
标签:URL,垃圾邮件,二元分类,机器学习,数据清洗,特征工程,自然语言处理,网络分析

数据概述:
本数据集包含约87.5万个URL,其中三分之一被标记为垃圾邮件URL,其余为非垃圾邮件URL。数据集由The Pudding创建,通过分析不同简讯中的链接,利用算法判断URL是否为垃圾邮件。具体来说,若链接在单一简讯中出现3次以上,或包含订阅/取消订阅相关URL,将被程序化标记为垃圾邮件。

数据用途概述:
该数据集适用于构建二元分类模型,用于识别垃圾邮件URL。应用场景包括垃圾邮件检测、网络内容审核以及安全研究等。开发者和研究人员可利用此数据集进行特征工程、数据清洗及模型训练,以提升垃圾邮件识别的准确率。此外,数据集也适合用于教学,帮助学习者理解垃圾邮件检测的基本原理和方法。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 14, 2025, 20:34 (UTC)
创建于 四月 14, 2025, 20:34 (UTC)