垃圾短信与钓鱼短信检测平衡数据集

数据集概述

本数据集包含一万零一百九十一条带标签的短信,用于训练和测试垃圾短信与钓鱼短信检测模型。数据集通过大语言模型生成,包含标签、短信内容及URL、邮箱、手机号存在与否等字段,且三类标签样本数量均衡,可有效避免分类任务中的偏差。

文件详解

  • 文件名称: A Balanced Dataset for Spam and Smishing Detection/Dataset_10191.csv
  • 文件格式: CSV
  • 字段映射:
  • LABEL: 短信类型(ham/垃圾短信spam/钓鱼短信smishing)
  • TEXT: 短信内容文本
  • URL: 是否包含URL(Yes/No)
  • EMAIL: 是否包含邮箱地址(Yes/No)
  • PHONE: 是否包含手机号(Yes/No)
  • 文件名称: A Balanced Dataset for Spam and Smishing Detection/URL_Email_Phone_Rules.ipynb
  • 文件格式: Jupyter Notebook(.ipynb)
  • 内容说明: 可能包含用于检测短信中URL、邮箱、手机号的规则实现代码或方法说明

数据来源

Mishra, Sandhya; Soni, Devpriya(2022)的SMS PHISHING DATASET FOR MACHINE LEARNING AND PATTERN RECOGNITION数据集

适用场景

  • 文本分类研究: 用于垃圾短信与钓鱼短信的分类模型训练与验证
  • 网络安全应用: 开发钓鱼与欺诈检测系统
  • 大语言模型优化: 用于LLM微调或提示工程,提升内容安全审核能力
  • 教育演示: 可作为网络安全、机器学习或自然语言处理课程的教学案例
  • 特征工程研究: 分析URL、邮箱、手机号等特征对短信分类的影响
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.35 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。