SecLLM_Based_网络安全问答数据集

数据集概述

本数据集聚焦网络安全领域,包含从StackExchange提取的5000余个问题及其人类高票回答,同时收录GPT-3.5-Turbo、GPT-4-4o等模型生成的回答,并附带ROUGE、SacreBLUE、BERTScore等相似度指标,用于评估大语言模型在网络安全场景下的问答质量,填补该领域研究空白。

文件详解

  • 文件名称:SecLLM.md
  • 文件格式:MD
  • 字段映射介绍:可能包含数据集的描述性文档,如数据集背景、使用说明、数据采集流程等内容。
  • 文件名称:SecLLM_schema.sql
  • 文件格式:SQL
  • 字段映射介绍:数据库表结构定义文件,用于描述数据存储的表结构、字段类型等信息。
  • 文件名称:SecLLM_data.sql
  • 文件格式:SQL
  • 字段映射介绍:数据存储文件,包含问题、人类回答、模型回答及相似度指标等数据内容。
  • 文件名称:SecLLM.xml
  • 文件格式:XML
  • 字段映射介绍:元数据文件,可能记录数据集的结构、字段定义、数据来源等元信息。
  • 文件名称:SecLLM.json
  • 文件格式:JSON
  • 字段映射介绍:结构化数据文件,以JSON格式存储问题、回答及评估指标等数据。
  • 文件名称:SecLLM.dump
  • 文件格式:DUMP
  • 字段映射介绍:数据备份文件,可能包含数据集的完整备份内容。

数据来源

StackExchange

适用场景

  • 网络安全领域LLM问答质量评估: 利用人类回答与模型回答的相似度指标,评估大语言模型在网络安全问题上的回答准确性与可靠性。
  • LLM幻觉问题研究: 分析模型回答与人类权威回答的差异,探究网络安全场景下LLM的幻觉现象。
  • 网络安全知识图谱构建: 基于问题与回答数据,提取网络安全领域的知识节点与关系,辅助知识图谱构建。
  • 网络安全教育资源开发: 筛选高质量的问题与回答,用于网络安全领域的教育素材或题库建设。
  • 大语言模型安全能力优化: 为网络安全领域的LLM微调提供标注数据,提升模型在该领域的专业回答能力。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 209.64 MiB
最后更新 2026年2月1日
创建于 2026年2月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。