垃圾短信与钓鱼短信检测平衡数据集

本数据集包含一万零一百九十一条带标签的短信，用于训练和测试垃圾短信与钓鱼短信检测模型。数据集通过大语言模型生成，包含标签、短信内容及URL、邮箱、手机号存在与否等字段，且三类标签样本数量均衡，可有效避免分类任务中的偏差。

文件名称: A Balanced Dataset for Spam and Smishing Detection/Dataset_10191.csv
文件格式: CSV
字段映射:
LABEL: 短信类型（ham/垃圾短信spam/钓鱼短信smishing）
TEXT: 短信内容文本
URL: 是否包含URL（Yes/No）
EMAIL: 是否包含邮箱地址（Yes/No）
PHONE: 是否包含手机号（Yes/No）
文件名称: A Balanced Dataset for Spam and Smishing Detection/URL_Email_Phone_Rules.ipynb
文件格式: Jupyter Notebook（.ipynb）
内容说明: 可能包含用于检测短信中URL、邮箱、手机号的规则实现代码或方法说明

Mishra, Sandhya; Soni, Devpriya（2022）的SMS PHISHING DATASET FOR MACHINE LEARNING AND PATTERN RECOGNITION数据集

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	0.35 MiB
最后更新	2025年11月29日
创建于	2025年11月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。