SciRAG_QA_Based_多领域科学封闭问题问答基准数据集

数据集概述

本数据集是用于科学问答(QA)系统基准测试的多领域封闭问题数据集,覆盖10个研究领域下的34个主题,包含108条人工标注的问答对,每条数据标注了答案类型、难度等级及带来源论文链接的黄金参考,可用于验证检索增强生成(RAG)系统在科学领域的性能。

文件详解

  • metadata.csv
  • 文件格式:CSV
  • 字段映射介绍:包含研究领域(Area)、子领域(Sub-area)、主题(Topic)、论文标题(Title)、DOI、作者(Authors)、发表日期(Date)、期刊/会议(Venue)、出版商(Publisher)等科学论文元信息
  • dataset.csv
  • 文件格式:CSV
  • 字段映射介绍:包含数据ID(ID)、问题(Question)、答案(Answer)、答案类型(Type)、难度等级(Complexity)、来源索引(Source_IDX)、黄金参考(Gold_REF)等问答对核心数据
  • dataset.json
  • 文件格式:JSON
  • 内容说明:结构化存储的问答对数据,字段与dataset.csv一致
  • README.md
  • 文件格式:MD
  • 内容说明:数据集整体说明文档,包含目录结构、文件格式解释等信息

适用场景

  • 科学问答系统性能评估:用于测试检索增强生成(RAG)等模型在多领域科学问题上的准确性与可靠性
  • 科学领域幻觉检测研究:利用带来源标注的黄金参考验证模型输出的事实一致性
  • 科学知识图谱构建:通过问答对提取科学领域关键概念与关系
  • 自然语言处理模型微调:为科学领域QA模型提供多领域标注训练数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.13 MiB
最后更新 2026年2月9日
创建于 2026年2月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。