预处理版虚假新闻识别数据集-ceasor6

预处理版虚假新闻识别数据集-ceasor6 数据来源:互联网公开数据 标签:虚假新闻,文本分析,自然语言处理,机器学习,文本预处理,情感分析,数据增强

数据概述: 本数据集是原始WELFake虚假新闻数据集在Kaggle上的预处理和增强版本。该版本通过引入工程特征和文本预处理步骤,提高了虚假新闻分类任务的性能。原始数据集包含新闻文章的标题、正文和二元标签(0表示真实新闻,1表示虚假新闻),而增强版本增加了基于文本的特征和预处理列,以支持更高级的自然语言处理(NLP)和机器学习建模。

数据集包含以下字段: - title: 新闻文章的标题 - text: 新闻文章的正文 - label: 二元标签,1表示虚假新闻,0表示真实新闻 - language: 文本的语言(默认为英语) - punctuation_count: 文本中标点符号的总数 - uppercase_ratio: 文本中大写字母与总字符数的比例 - numerical_count: 文本中数值的个数 - sentiment_polarity: 基于TextBlob分析的情感极性得分(范围为-1到1) - processed_title: 预处理和分词后的标题 - processed_text: 预处理和分词后的正文 - title_len: 标题的词数 - text_len: 正文的词数 - total_len: 标题和正文的总词数 - combined_processed_text: 用于NLP任务的标题和正文的连接和分词版本 - combined_text_title: 连接后的原始标题和正文,用于综合分析

数据用途概述: 该数据集适用于虚假新闻检测、自然语言处理研究、机器学习模型训练、情感分析等多种场景。研究人员可以利用此数据集进行虚假新闻分类模型的训练和评估;教育工作者可以使用此数据集进行文本预处理和NLP技术的教学;数据科学家可以利用此数据集进行文本特征工程的研究。此外,该数据集还适用于新闻传播学、社交媒体研究等领域的相关分析。

此数据集是基于Kaggle上的WELFake数据集的修改和衍生工作,遵循CC BY-NC-SA 4.0(Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International)许可证,必须用于非商业目的,并且需适当署名。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 23:59 (UTC)
创建于 五月 31, 2025, 23:58 (UTC)