数据集

全球多语言垃圾短信检测数据集1963-2021

全球多语言垃圾短信检测数据集1963-2021 数据来源：互联网公开数据标签：垃圾短信检测,多语言NLP,文本分类,跨语言分析,文本数据数据概述：本数据集包含138,813条文本记录，适用于文本分类、垃圾短信检测和多语言分析等任务。每条记录包括一个分类标签（如“ham”表示非垃圾短信或“spam”表示垃圾短信）和一条文本片段。数据集中41种独特语言的注释使得可以探索跨语言的模式。数据集中的每个条目还包含指示短信中是否包含URL、电子邮件地址或电话号码的二进制指标。

数据用途概述：该数据集适用于多语言自然语言处理任务，如训练多语言分类或情感分析模型。此外，数据集可用于评估垃圾短信/非垃圾短信检测模型的有效性，并研究多种语言中的模式。具体应用场景包括但不限于垃圾短信过滤、多语言文本分析及语言识别研究。

举例：本数据集可以用于构建一个多语言垃圾短信检测系统，通过训练机器学习模型识别不同语言的垃圾短信。研究者还可以分析不同语言的垃圾短信特征和模式，为语言识别技术的发展提供数据支持。

数据与资源

全球多语言垃圾短信检测数据集1963-2021.zipZIP
5.61 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	5.61 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

全球多语言垃圾短信检测数据集1963-2021

数据与资源

附加信息

注册成功！