AeroEngQA_Benchmark_航空工程飞机设计LLM评估基准数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

AeroEngQA_Benchmark_航空工程飞机设计LLM评估基准数据集

数据集概述

本数据集是低体量、高质量的飞机设计问答（QA）基准数据集，用于支持大语言模型（LLMs）的定性评估。涵盖单跳可回答、单跳不可回答、多跳可回答、多跳不可回答四类问答场景，通过结构化文件提供航空工程领域的专业问答数据，为LLM在飞机设计任务中的性能评估提供标准基准。

文件详解

核心数据文件
文件名称：AeroEngQA_single-hop.json
文件格式：JSON
字段映射介绍：包含飞机设计领域的单跳可回答问答数据，每条记录可能包含问题、标准答案、上下文等字段
文件名称：AeroEngQA_single-hop-unanswerable.json
文件格式：JSON
字段映射介绍：包含飞机设计领域的单跳不可回答问答数据，记录不可回答的问题及原因说明
文件名称：AeroEngQA_multi-hop.json
文件格式：JSON
字段映射介绍：包含飞机设计领域的多跳可回答问答数据，需多步推理的问题及标准答案
文件名称：AeroEngQA_multi-hop-unanswerable.json
文件格式：JSON
字段映射介绍：包含飞机设计领域的多跳不可回答问答数据，记录需多步推理但无法回答的问题及原因
文件名称：AeroEngQA.xlsx
文件格式：XLSX
字段映射介绍：以表格形式整合的飞机设计QA数据，可能包含问题类型、领域分类、难度等级等结构化信息
说明文档
文件名称：zenodo-dataset-ArgoEngQA.txt
文件格式：TXT
字段映射介绍：数据集基本信息说明，包含名称、描述、用途等内容

数据来源

论文“Retrieval-Augmented Generation and In-Context Prompted Large Language Models in Aircraft Engineering”

适用场景

航空工程LLM性能评估: 用于测试大语言模型在飞机设计领域的问答准确性、推理能力和回答简洁性
飞机设计智能辅助工具开发: 为航空工程领域智能问答系统、设计辅助聊天机器人提供训练与测试数据
LLM提示策略优化: 支持零样本提示、上下文提示、检索增强生成（RAG）等提示策略的效果对比分析
航空工程知识图谱构建: 基于专业问答数据提取飞机设计领域的实体关系，辅助知识图谱构建
工程领域LLM应用研究: 探究大语言模型在复杂工程设计任务中的适用性与局限性

数据与资源

14215677.zipZIP
0.16 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.16 MiB
最后更新	2026年1月20日
创建于	2026年1月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？