全球多语言垃圾短信检测数据集1963-2021

全球多语言垃圾短信检测数据集1963-2021 数据来源:互联网公开数据 标签:垃圾短信检测,多语言NLP,文本分类,跨语言分析,文本数据 数据概述: 本数据集包含138,813条文本记录,适用于文本分类、垃圾短信检测和多语言分析等任务。每条记录包括一个分类标签(如“ham”表示非垃圾短信或“spam”表示垃圾短信)和一条文本片段。数据集中41种独特语言的注释使得可以探索跨语言的模式。数据集中的每个条目还包含指示短信中是否包含URL、电子邮件地址或电话号码的二进制指标。

数据用途概述: 该数据集适用于多语言自然语言处理任务,如训练多语言分类或情感分析模型。此外,数据集可用于评估垃圾短信/非垃圾短信检测模型的有效性,并研究多种语言中的模式。具体应用场景包括但不限于垃圾短信过滤、多语言文本分析及语言识别研究。

举例: 本数据集可以用于构建一个多语言垃圾短信检测系统,通过训练机器学习模型识别不同语言的垃圾短信。研究者还可以分析不同语言的垃圾短信特征和模式,为语言识别技术的发展提供数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 5.61 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。