印度尼西亚短信垃圾信息数据集

印度尼西亚短信垃圾信息数据集 数据来源:互联网公开数据 标签:短信,垃圾信息,分类,文本分析,机器学习,印尼语 数据概述: 本数据集来源于https://yudiwbs.wordpress.com/2018/08/05/dataset-klasifikasi-bahasa-indonesia-sms-spam-klasifikasi-teks-dengan-scikit-learn/,包含1142条记录,其中571条为垃圾信息(spam),571条为非垃圾信息(ham),比例为50%:50%。数据集提供了标注好的印尼语短信文本,适用于垃圾信息检测和分类研究。 数据用途概述: 该数据集适用于短信垃圾信息的识别和过滤,可用于开发和测试垃圾信息检测系统。研究者可以利用此数据集进行文本分类算法的评估和优化。此外,该数据集也适用于自然语言处理和机器学习领域的教学和研究,帮助学习者理解文本分类的基本方法和技术。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 14, 2025, 22:59 (UTC)
创建于 四月 14, 2025, 22:59 (UTC)