数据集概述
该数据集包含针对特定主题的阿拉伯语谣言与非谣言推文相关数据,共4个表格,涵盖推文特征、原始数据及主题特征(基于新闻推文提取),并附带8个用于特征提取、数据处理和分类的Python源代码文件,为阿拉伯语社交媒体内容的谣言检测研究提供支持。
文件详解
该数据集由“Dataset/”和“Source-Code/”两个目录组成,具体说明如下:
- Dataset/ 目录(数据文件):
- tweet-featues.csv:CSV格式,包含推文特征数据,字段示例有Topic_Name、user_Nametype、tweet、tweet_id、tweet_length、tweet_type等
- rumors-rawdata.csv:CSV格式,谣言类推文原始数据文件
- non-rumors-rawdata.csv:CSV格式,非谣言类推文原始数据文件
- topic-features-news.csv:CSV格式,从新闻推文中提取的主题特征数据文件
- Source-Code/ 目录(源代码文件):
- Extract-tweet-features.py:Python代码,用于提取推文特征
- Collect-Tweets.py:Python代码,用于收集推文数据
- Extract_Topic_Features.py:Python代码,用于提取主题特征
- Extract sentiment.py:Python代码,用于提取情感特征
- tweet_class.py:Python代码,推文分类相关脚本
- Tweet_Preprocessing.py:Python代码,推文预处理脚本
- Topic_class.py:Python代码,主题分类相关脚本
- Tweet_Classification.py:Python代码,推文分类相关脚本
适用场景
- 自然语言处理研究:阿拉伯语推文的文本预处理、情感分析及特征提取方法开发
- 机器学习应用:社交媒体谣言检测的分类模型训练与验证
- 社交媒体分析:特定主题下阿拉伯语谣言与非谣言内容的传播模式研究
- 医疗相关文本挖掘:结合CT等医疗关键词的社交媒体信息分析(如医疗谣言检测)