巴西葡萄牙语暗网论坛标注帖子数据集_DarkPT_BR

数据集概述

该数据集为巴西葡萄牙语暗网论坛的标注帖子集合,包含三个版本:基于启发式标注的初始数据集、人工修订扩展数据集,以及模型预测标注的未标记帖子数据集,支持网络威胁情报和恶意内容检测研究。

文件详解

该数据集包含3个CSV格式文件,均位于"DarkPT-BR Labeled Posts from Brazilian Portuguese/"目录下: - dataset_I.csv:初始启发式标注数据集,含17,675条暗网帖子,标注字段包括ID、category(类别)、full_text(全文)、created_at(创建时间)、IOC(妥协指标)、IP(IP地址)、URL、EML(邮箱)、HSH(哈希)、CVE、DOM(域名)、ASN、IP6、MAC、RKP、KEYWORD(关键词)、Relevante(相关性标签) - dataset_II.csv:人工修订扩展数据集,含26,575条暗网帖子(包含dataset_I全部内容),标注字段与dataset_I一致,含3,341条相关帖子、23,234条不相关帖子 - dataset_III.csv:模型预测标注数据集,含7,498条未标记暗网帖子,标注字段包括ID、category、full_text、created_at、IOC、IP4、URL、EML、DOM、CVE、SHA1S、HSH、MD5S、SHA256S、IPV6S、KEYWORD、probabilidade(相关性概率)、Relevância(相关性)、previsao_binaria(二分类预测)

适用场景

  • 网络威胁情报研究:分析暗网中恶意内容的分布与特征
  • 恶意内容检测:训练和评估恶意帖子识别的机器学习模型
  • 文本挖掘应用:探索暗网论坛文本的语义特征与主题分类
  • 网络安全自动化:支持妥协指标(IoC)的自动提取与分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 16.95 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。