Twitter_Based_用户可信度评估数据集

本数据集包含50000名Twitter用户（政治家）的特征数据及人工标注的可信度标签，基于用户社交档案、推文可信度、推文h指数等计算影响力得分，用于分类用户可信度。数据集由Python提取特征生成，结合ModAL框架的主动学习方法完成人工标注与分类。

数据文件
Dataset.csv：格式CSV，含50000名Twitter用户（政治家）的多维度特征，无标签
Manually_labeled-Dataset.csv：格式CSV，含人工标注为可信/不可信的Twitter用户数据
Screen_name_1.txt、Screen_name_2.txt、Screen_names_3.txt：格式TXT，存储已过滤的政治家Twitter用户名（排除私密账号、无粉丝/关注者账号及重复名称）
代码文件
feature_extraction.py：格式PY，计算Twitter用户影响力得分的Python脚本，基于社交声誉、内容得分、推文可信度、转发与点赞指数得分
Activelearner.ipynb：格式IPYNB，使用ModAL框架的主动学习模型代码，含三种采样技术选择模糊数据点、人工标注流程，及支持向量机、逻辑回归、多层感知机、随机森林四种分类器
twitter_reputation.ipynb：格式IPYNB，测试回归模型性能的代码，含多层感知机、深度神经网络、线性回归三种回归模型的训练与评估
twitter_credentials.py：格式PY，Twitter特征提取所需的认证凭据文件
其他文件
README.md：格式MD，项目说明文档

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	19.84 MiB
最后更新	2026年2月9日
创建于	2026年2月9日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。