数据集概述
本数据集是低体量、高质量的飞机设计问答(QA)基准数据集,用于支持大语言模型(LLMs)的定性评估。涵盖单跳可回答、单跳不可回答、多跳可回答、多跳不可回答四类问答场景,通过结构化文件提供航空工程领域的专业问答数据,为LLM在飞机设计任务中的性能评估提供标准基准。
文件详解
- 核心数据文件
- 文件名称:AeroEngQA_single-hop.json
- 文件格式:JSON
- 字段映射介绍:包含飞机设计领域的单跳可回答问答数据,每条记录可能包含问题、标准答案、上下文等字段
- 文件名称:AeroEngQA_single-hop-unanswerable.json
- 文件格式:JSON
- 字段映射介绍:包含飞机设计领域的单跳不可回答问答数据,记录不可回答的问题及原因说明
- 文件名称:AeroEngQA_multi-hop.json
- 文件格式:JSON
- 字段映射介绍:包含飞机设计领域的多跳可回答问答数据,需多步推理的问题及标准答案
- 文件名称:AeroEngQA_multi-hop-unanswerable.json
- 文件格式:JSON
- 字段映射介绍:包含飞机设计领域的多跳不可回答问答数据,记录需多步推理但无法回答的问题及原因
- 文件名称:AeroEngQA.xlsx
- 文件格式:XLSX
- 字段映射介绍:以表格形式整合的飞机设计QA数据,可能包含问题类型、领域分类、难度等级等结构化信息
- 说明文档
- 文件名称:zenodo-dataset-ArgoEngQA.txt
- 文件格式:TXT
- 字段映射介绍:数据集基本信息说明,包含名称、描述、用途等内容
数据来源
论文“Retrieval-Augmented Generation and In-Context Prompted Large Language Models in Aircraft Engineering”
适用场景
- 航空工程LLM性能评估: 用于测试大语言模型在飞机设计领域的问答准确性、推理能力和回答简洁性
- 飞机设计智能辅助工具开发: 为航空工程领域智能问答系统、设计辅助聊天机器人提供训练与测试数据
- LLM提示策略优化: 支持零样本提示、上下文提示、检索增强生成(RAG)等提示策略的效果对比分析
- 航空工程知识图谱构建: 基于专业问答数据提取飞机设计领域的实体关系,辅助知识图谱构建
- 工程领域LLM应用研究: 探究大语言模型在复杂工程设计任务中的适用性与局限性