数据集概述
该数据集包含2024年5月13日至7月31日期间收集的网络安全新闻条目,通过OSINT平台Taranis AI从公共源获取,以每日JSON文件形式存储,含约一万二千条德英双语新闻,每条数据项封装单一新闻条目及相关元数据。
文件详解
- 文件名称: AIT-OSINT-Summer2024-v1.0.zip
- 文件格式: ZIP压缩包
- 内容说明: 包含每日JSON格式的数据文件,每个数据项含以下字段:
- id: 数据项ID(UUID格式)
- created: 首个新闻条目发布时间戳
- news_items: 新闻条目列表(JSON格式),每条新闻含id、author、content、hash、link、osint、published、source、story_id、title字段
- title: 首个新闻条目标题
- tags: 内容标签(嵌套JSON)
- attributes: 标签创建信息(JSON列表)
- 文件名称: AIT-OSINT-Summer2024-v1.0_description.pdf
- 文件格式: PDF
- 内容说明: 包含每日数据项数量、作者/来源/标签分布统计,以及公共源列表等补充信息
数据来源
OSINT平台Taranis AI
适用场景
- 网络安全威胁情报分析:通过新闻内容挖掘潜在威胁事件
- 信息源可信度评估:分析不同公开源的新闻发布特征
- 自然语言处理应用:训练或测试网络安全领域的NER、文本聚类模型
- 威胁趋势监测:基于新闻发布时间和标签追踪特定漏洞(CVE)或攻击指标(IoC)的传播动态
- 开源情报工作流优化:研究OSINT数据结构化处理对分析师效率的影响