数据集

预处理版虚假新闻识别数据集-ceasor6

预处理版虚假新闻识别数据集-ceasor6 数据来源：互联网公开数据标签：虚假新闻,文本分析,自然语言处理,机器学习,文本预处理,情感分析,数据增强

数据概述：本数据集是原始WELFake虚假新闻数据集在Kaggle上的预处理和增强版本。该版本通过引入工程特征和文本预处理步骤，提高了虚假新闻分类任务的性能。原始数据集包含新闻文章的标题、正文和二元标签（0表示真实新闻，1表示虚假新闻），而增强版本增加了基于文本的特征和预处理列，以支持更高级的自然语言处理（NLP）和机器学习建模。

数据集包含以下字段： - title: 新闻文章的标题 - text: 新闻文章的正文 - label: 二元标签，1表示虚假新闻，0表示真实新闻 - language: 文本的语言（默认为英语） - punctuation_count: 文本中标点符号的总数 - uppercase_ratio: 文本中大写字母与总字符数的比例 - numerical_count: 文本中数值的个数 - sentiment_polarity: 基于TextBlob分析的情感极性得分（范围为-1到1） - processed_title: 预处理和分词后的标题 - processed_text: 预处理和分词后的正文 - title_len: 标题的词数 - text_len: 正文的词数 - total_len: 标题和正文的总词数 - combined_processed_text: 用于NLP任务的标题和正文的连接和分词版本 - combined_text_title: 连接后的原始标题和正文，用于综合分析

数据用途概述：该数据集适用于虚假新闻检测、自然语言处理研究、机器学习模型训练、情感分析等多种场景。研究人员可以利用此数据集进行虚假新闻分类模型的训练和评估；教育工作者可以使用此数据集进行文本预处理和NLP技术的教学；数据科学家可以利用此数据集进行文本特征工程的研究。此外，该数据集还适用于新闻传播学、社交媒体研究等领域的相关分析。

此数据集是基于Kaggle上的WELFake数据集的修改和衍生工作，遵循CC BY-NC-SA 4.0（Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International）许可证，必须用于非商业目的，并且需适当署名。

数据与资源

versions_20250403041612.zipZIP
180.02 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	180.02 MiB
最后更新	2025年5月31日
创建于	2025年5月31日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

预处理版虚假新闻识别数据集-ceasor6

数据与资源

附加信息

注册成功！