AeroEngQA_Benchmark_航空工程飞机设计LLM评估基准数据集

数据集概述

本数据集是低体量、高质量的飞机设计问答(QA)基准数据集,用于支持大语言模型(LLMs)的定性评估。涵盖单跳可回答、单跳不可回答、多跳可回答、多跳不可回答四类问答场景,通过结构化文件提供航空工程领域的专业问答数据,为LLM在飞机设计任务中的性能评估提供标准基准。

文件详解

  • 核心数据文件
  • 文件名称:AeroEngQA_single-hop.json
  • 文件格式:JSON
  • 字段映射介绍:包含飞机设计领域的单跳可回答问答数据,每条记录可能包含问题、标准答案、上下文等字段
  • 文件名称:AeroEngQA_single-hop-unanswerable.json
  • 文件格式:JSON
  • 字段映射介绍:包含飞机设计领域的单跳不可回答问答数据,记录不可回答的问题及原因说明
  • 文件名称:AeroEngQA_multi-hop.json
  • 文件格式:JSON
  • 字段映射介绍:包含飞机设计领域的多跳可回答问答数据,需多步推理的问题及标准答案
  • 文件名称:AeroEngQA_multi-hop-unanswerable.json
  • 文件格式:JSON
  • 字段映射介绍:包含飞机设计领域的多跳不可回答问答数据,记录需多步推理但无法回答的问题及原因
  • 文件名称:AeroEngQA.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:以表格形式整合的飞机设计QA数据,可能包含问题类型、领域分类、难度等级等结构化信息
  • 说明文档
  • 文件名称:zenodo-dataset-ArgoEngQA.txt
  • 文件格式:TXT
  • 字段映射介绍:数据集基本信息说明,包含名称、描述、用途等内容

数据来源

论文“Retrieval-Augmented Generation and In-Context Prompted Large Language Models in Aircraft Engineering”

适用场景

  • 航空工程LLM性能评估: 用于测试大语言模型在飞机设计领域的问答准确性、推理能力和回答简洁性
  • 飞机设计智能辅助工具开发: 为航空工程领域智能问答系统、设计辅助聊天机器人提供训练与测试数据
  • LLM提示策略优化: 支持零样本提示、上下文提示、检索增强生成(RAG)等提示策略的效果对比分析
  • 航空工程知识图谱构建: 基于专业问答数据提取飞机设计领域的实体关系,辅助知识图谱构建
  • 工程领域LLM应用研究: 探究大语言模型在复杂工程设计任务中的适用性与局限性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.16 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。