虚假-垃圾与真实信息分类统一数据集-saharshml

虚假-垃圾与真实信息分类统一数据集-saharshml 数据来源：互联网公开数据标签：虚假信息,垃圾信息,真实信息,文本分类,自然语言处理,机器学习,社交媒体,电子邮件,短信,新闻文章

数据概述：本数据集旨在对信息进行分类，分为“虚假”、“垃圾”和“真实”三个类别。它整合了来自多个来源的数据，以提供一个多样化且全面的集合。该数据集经过精心清洗和处理，确保了数据的质量和一致性，并移除了重复条目。

数据来源： YouTube 垃圾邮件与正常数据：来源：YouTube 垃圾邮件集合描述：包含来自 YouTube 视频的垃圾邮件和正常评论。

电子邮件垃圾邮件数据集：来源：电子邮件垃圾邮件集合描述：垃圾邮件和正常电子邮件的集合。

短信垃圾邮件数据集：来源：短信垃圾邮件集合描述：垃圾邮件和正常短信消息的数据集。

WELFake 数据集：来源：WELFake 虚假新闻数据集描述：包含虚假和真实的新闻文章。

GossipCop 数据集：来源：GossipCop 虚假新闻数据集描述：来自 GossipCop 的虚假和真实新闻文章的数据集。

数据用途概述：该数据集适用于文本分类、自然语言处理、机器学习等多种应用场景。研究人员可以使用此数据集训练和评估文本分类模型，用于识别虚假信息、垃圾邮件等。企业可以利用此数据构建垃圾邮件过滤系统、社交媒体内容审核工具等。此外，该数据集也适合用于教育和研究，帮助学习者理解文本分类的概念和技术。

数据与资源

字段	值
版本	1.0
数据集大小	5.59 MiB
最后更新	2025年4月23日
创建于	2025年4月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。