Twitter_Based_用户可信度评估数据集

数据集概述

本数据集包含50000名Twitter用户(政治家)的特征数据及人工标注的可信度标签,基于用户社交档案、推文可信度、推文h指数等计算影响力得分,用于分类用户可信度。数据集由Python提取特征生成,结合ModAL框架的主动学习方法完成人工标注与分类。

文件详解

  • 数据文件
  • Dataset.csv:格式CSV,含50000名Twitter用户(政治家)的多维度特征,无标签
  • Manually_labeled-Dataset.csv:格式CSV,含人工标注为可信/不可信的Twitter用户数据
  • Screen_name_1.txtScreen_name_2.txtScreen_names_3.txt:格式TXT,存储已过滤的政治家Twitter用户名(排除私密账号、无粉丝/关注者账号及重复名称)
  • 代码文件
  • feature_extraction.py:格式PY,计算Twitter用户影响力得分的Python脚本,基于社交声誉、内容得分、推文可信度、转发与点赞指数得分
  • Activelearner.ipynb:格式IPYNB,使用ModAL框架的主动学习模型代码,含三种采样技术选择模糊数据点、人工标注流程,及支持向量机、逻辑回归、多层感知机、随机森林四种分类器
  • twitter_reputation.ipynb:格式IPYNB,测试回归模型性能的代码,含多层感知机、深度神经网络、线性回归三种回归模型的训练与评估
  • twitter_credentials.py:格式PY,Twitter特征提取所需的认证凭据文件
  • 其他文件
  • README.md:格式MD,项目说明文档

适用场景

  • 社交媒体用户可信度分析: 基于用户特征与标注数据,分类Twitter用户可信度
  • 影响力得分模型验证: 测试基于社交档案、推文内容的影响力得分计算方法有效性
  • 主动学习方法应用: 探究ModAL框架在社交媒体数据标注中的效率与准确性
  • 分类算法性能对比: 比较不同分类器在Twitter用户可信度分类任务中的表现
  • 政治家社交媒体行为研究: 分析政治家Twitter账号的特征与可信度关联
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 19.84 MiB
最后更新 2026年2月9日
创建于 2026年2月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。