数据集概述
本数据集包含一万零一百九十一条带标签的短信,用于训练和测试垃圾短信与钓鱼短信检测模型。数据集通过大语言模型生成,包含标签、短信内容及URL、邮箱、手机号存在与否等字段,且三类标签样本数量均衡,可有效避免分类任务中的偏差。
文件详解
- 文件名称: A Balanced Dataset for Spam and Smishing Detection/Dataset_10191.csv
- 文件格式: CSV
- 字段映射:
- LABEL: 短信类型(ham/垃圾短信spam/钓鱼短信smishing)
- TEXT: 短信内容文本
- URL: 是否包含URL(Yes/No)
- EMAIL: 是否包含邮箱地址(Yes/No)
- PHONE: 是否包含手机号(Yes/No)
- 文件名称: A Balanced Dataset for Spam and Smishing Detection/URL_Email_Phone_Rules.ipynb
- 文件格式: Jupyter Notebook(.ipynb)
- 内容说明: 可能包含用于检测短信中URL、邮箱、手机号的规则实现代码或方法说明
数据来源
Mishra, Sandhya; Soni, Devpriya(2022)的SMS PHISHING DATASET FOR MACHINE LEARNING AND PATTERN RECOGNITION数据集
适用场景
- 文本分类研究: 用于垃圾短信与钓鱼短信的分类模型训练与验证
- 网络安全应用: 开发钓鱼与欺诈检测系统
- 大语言模型优化: 用于LLM微调或提示工程,提升内容安全审核能力
- 教育演示: 可作为网络安全、机器学习或自然语言处理课程的教学案例
- 特征工程研究: 分析URL、邮箱、手机号等特征对短信分类的影响