YouTube-Twitter和短信垃圾信息数据集

YouTube-Twitter和短信垃圾信息数据集 数据来源:互联网公开数据 标签:垃圾信息,短信,社交媒体,YouTube,Twitter,文本数据,自然语言处理,垃圾邮件检测

数据概述: 本数据集整合了多个公开的垃圾信息数据集,旨在为垃圾信息检测、文本分类等研究提供数据资源。数据集主要由三部分组成:

  1. YouTube垃圾评论数据集:该数据集包含从YouTube平台上收集的评论数据,共包含来自5个不同视频的1956条评论。每条评论都带有“垃圾信息”(Spam)或“非垃圾信息”(Not Spam)的标签,并包含评论ID、作者、日期和内容等信息。
  2. 短信垃圾信息数据集:该数据集包含短信消息,分为垃圾短信(Spam)和正常短信(Ham)两类。数据来源于多个渠道,包括从Grumbletext网站手动提取的425条垃圾短信;NUS SMS Corpus中随机抽取的3375条正常短信;以及来自Caroline Tag博士论文的450条正常短信。
  3. Twitter垃圾信息数据集:该数据集包含Twitter上的推文数据,分为垃圾推文(Spam)和正常推文(Legitimate)两类。其中,垃圾推文数据集包含58690条推文,正常推文数据集包含68345条推文。

数据用途概述: 该数据集可用于多种研究和应用场景,包括:

  • 垃圾信息检测模型的训练和评估:利用YouTube评论、短信和Twitter推文数据,可以构建和测试用于识别垃圾信息的机器学习模型。
  • 文本分类研究:数据集中的文本数据可用于探索不同的文本分类算法,例如朴素贝叶斯、支持向量机、深度学习等。
  • 自然语言处理研究:数据集可用于进行词频统计、情感分析、主题建模等自然语言处理任务。
  • 垃圾信息传播分析:通过分析不同平台上的垃圾信息,可以研究垃圾信息传播的规律和特点。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 15, 2025, 07:07 (UTC)
创建于 四月 15, 2025, 07:07 (UTC)