数据集

短信垃圾信息与正常短信分类数据集-poojaparab

短信垃圾信息与正常短信分类数据集-poojaparab 数据来源：互联网公开数据标签：短信,垃圾信息,正常短信,文本分类,自然语言处理,机器学习,数据集

数据概述：本数据集包含425条手动从Grumbletext网站提取的垃圾短信（spam）消息和从新加坡国立大学计算机科学系收集的3,375条随机选择的正常短信（ham）消息。Grumbletext是一个英国论坛，用户在此发表关于收到的垃圾短信的公开声明，但很少报告具体的垃圾短信内容。因此，从声明中识别垃圾短信文本是一项耗时且艰巨的任务，需要仔细扫描数百个网页。NUS SMS Corpus（NSC）是一个约包含10,000条合法短信的研究数据集，这些短信主要来自新加坡的学生用户，这些消息由志愿者提供，并被告知他们的贡献将公开共享。

数据用途概述：该数据集适用于短信垃圾信息识别、文本分类研究、自然语言处理和机器学习模型训练等场景。研究人员可以利用此数据集训练和评估垃圾短信检测模型；企业可以利用此数据集提高其短信过滤系统的准确性；教育机构可以将其用于教学和实验，帮助学生理解文本分类的基本概念和方法。

数据与资源

versions_20250404144054.zipZIP
0.20 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.2 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。