短信垃圾信息与正常短信分类数据集-poojaparab

短信垃圾信息与正常短信分类数据集-poojaparab 数据来源:互联网公开数据 标签:短信,垃圾信息,正常短信,文本分类,自然语言处理,机器学习,数据集

数据概述: 本数据集包含425条手动从Grumbletext网站提取的垃圾短信(spam)消息和从新加坡国立大学计算机科学系收集的3,375条随机选择的正常短信(ham)消息。Grumbletext是一个英国论坛,用户在此发表关于收到的垃圾短信的公开声明,但很少报告具体的垃圾短信内容。因此,从声明中识别垃圾短信文本是一项耗时且艰巨的任务,需要仔细扫描数百个网页。NUS SMS Corpus(NSC)是一个约包含10,000条合法短信的研究数据集,这些短信主要来自新加坡的学生用户,这些消息由志愿者提供,并被告知他们的贡献将公开共享。

数据用途概述: 该数据集适用于短信垃圾信息识别、文本分类研究、自然语言处理和机器学习模型训练等场景。研究人员可以利用此数据集训练和评估垃圾短信检测模型;企业可以利用此数据集提高其短信过滤系统的准确性;教育机构可以将其用于教学和实验,帮助学生理解文本分类的基本概念和方法。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 22, 2025, 14:57 (UTC)
创建于 四月 22, 2025, 14:57 (UTC)