数据集

阿拉伯语谣言与非谣言推文数据集

数据集概述

该数据集包含针对特定主题的阿拉伯语谣言与非谣言推文相关数据，共4个表格，涵盖推文特征、原始数据及主题特征（基于新闻推文提取），并附带8个用于特征提取、数据处理和分类的Python源代码文件，为阿拉伯语社交媒体内容的谣言检测研究提供支持。

文件详解

该数据集由“Dataset/”和“Source-Code/”两个目录组成，具体说明如下： - Dataset/ 目录（数据文件）： - tweet-featues.csv：CSV格式，包含推文特征数据，字段示例有Topic_Name、user_Nametype、tweet、tweet_id、tweet_length、tweet_type等 - rumors-rawdata.csv：CSV格式，谣言类推文原始数据文件 - non-rumors-rawdata.csv：CSV格式，非谣言类推文原始数据文件 - topic-features-news.csv：CSV格式，从新闻推文中提取的主题特征数据文件 - Source-Code/ 目录（源代码文件）： - Extract-tweet-features.py：Python代码，用于提取推文特征 - Collect-Tweets.py：Python代码，用于收集推文数据 - Extract_Topic_Features.py：Python代码，用于提取主题特征 - Extract sentiment.py：Python代码，用于提取情感特征 - tweet_class.py：Python代码，推文分类相关脚本 - Tweet_Preprocessing.py：Python代码，推文预处理脚本 - Topic_class.py：Python代码，主题分类相关脚本 - Tweet_Classification.py：Python代码，推文分类相关脚本

适用场景

自然语言处理研究：阿拉伯语推文的文本预处理、情感分析及特征提取方法开发
机器学习应用：社交媒体谣言检测的分类模型训练与验证
社交媒体分析：特定主题下阿拉伯语谣言与非谣言内容的传播模式研究
医疗相关文本挖掘：结合CT等医疗关键词的社交媒体信息分析（如医疗谣言检测）

数据与资源

9sht4t6cpf-2.zipZIP
65.99 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	65.99 MiB
最后更新	2025年11月29日
创建于	2025年11月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。