虚假-垃圾与真实信息分类统一数据集-saharshml

虚假-垃圾与真实信息分类统一数据集-saharshml 数据来源:互联网公开数据 标签:虚假信息,垃圾信息,真实信息,文本分类,自然语言处理,机器学习,社交媒体,电子邮件,短信,新闻文章

数据概述: 本数据集旨在对信息进行分类,分为“虚假”、“垃圾”和“真实”三个类别。它整合了来自多个来源的数据,以提供一个多样化且全面的集合。该数据集经过精心清洗和处理,确保了数据的质量和一致性,并移除了重复条目。

数据来源: YouTube 垃圾邮件与正常数据: 来源:YouTube 垃圾邮件集合 描述:包含来自 YouTube 视频的垃圾邮件和正常评论。

电子邮件垃圾邮件数据集: 来源:电子邮件垃圾邮件集合 描述:垃圾邮件和正常电子邮件的集合。

短信垃圾邮件数据集: 来源:短信垃圾邮件集合 描述:垃圾邮件和正常短信消息的数据集。

WELFake 数据集: 来源:WELFake 虚假新闻数据集 描述:包含虚假和真实的新闻文章。

GossipCop 数据集: 来源:GossipCop 虚假新闻数据集 描述:来自 GossipCop 的虚假和真实新闻文章的数据集。

数据用途概述: 该数据集适用于文本分类、自然语言处理、机器学习等多种应用场景。研究人员可以使用此数据集训练和评估文本分类模型,用于识别虚假信息、垃圾邮件等。企业可以利用此数据构建垃圾邮件过滤系统、社交媒体内容审核工具等。此外,该数据集也适合用于教育和研究,帮助学习者理解文本分类的概念和技术。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 23, 2025, 22:29 (UTC)
创建于 四月 23, 2025, 22:28 (UTC)