数据集概述
本数据集包含50000名Twitter用户(政治家)的特征数据及人工标注的可信度标签,基于用户社交档案、推文可信度、推文h指数等计算影响力得分,用于分类用户可信度。数据集由Python提取特征生成,结合ModAL框架的主动学习方法完成人工标注与分类。
文件详解
- 数据文件
Dataset.csv:格式CSV,含50000名Twitter用户(政治家)的多维度特征,无标签
Manually_labeled-Dataset.csv:格式CSV,含人工标注为可信/不可信的Twitter用户数据
Screen_name_1.txt、Screen_name_2.txt、Screen_names_3.txt:格式TXT,存储已过滤的政治家Twitter用户名(排除私密账号、无粉丝/关注者账号及重复名称)
- 代码文件
feature_extraction.py:格式PY,计算Twitter用户影响力得分的Python脚本,基于社交声誉、内容得分、推文可信度、转发与点赞指数得分
Activelearner.ipynb:格式IPYNB,使用ModAL框架的主动学习模型代码,含三种采样技术选择模糊数据点、人工标注流程,及支持向量机、逻辑回归、多层感知机、随机森林四种分类器
twitter_reputation.ipynb:格式IPYNB,测试回归模型性能的代码,含多层感知机、深度神经网络、线性回归三种回归模型的训练与评估
twitter_credentials.py:格式PY,Twitter特征提取所需的认证凭据文件
- 其他文件
README.md:格式MD,项目说明文档
适用场景
- 社交媒体用户可信度分析: 基于用户特征与标注数据,分类Twitter用户可信度
- 影响力得分模型验证: 测试基于社交档案、推文内容的影响力得分计算方法有效性
- 主动学习方法应用: 探究ModAL框架在社交媒体数据标注中的效率与准确性
- 分类算法性能对比: 比较不同分类器在Twitter用户可信度分类任务中的表现
- 政治家社交媒体行为研究: 分析政治家Twitter账号的特征与可信度关联