航天多选题数据集
数据来源:互联网公开数据
标签:航天工程,多选题,语言模型评估,模型比较,领域适应,提示策略,量化水平
数据概述:
本数据集名为AstroMCQA,包含200个由专家创建的航天工程领域的多选题及其答案,涵盖多个子领域,如推进系统、操作、载人航天、空间环境影响、项目生命周期、通信和链路分析等。每个题目包含问题描述、选项列表、正确答案标识、答案解释以及唯一标识符等字段。
数据用途概述:
AstroMCQA主要用于评估语言模型(LLM)在航天工程领域多选题回答任务中的表现。开发者可以利用此数据集进行不同语言模型的比较评估、模型审核和选择、量化水平评估、提示策略优化以及领域特定微调效果评估等研究。该数据集对于理解不同模型在航天工程中的表现非常有用。
举例:
AstroMCQA数据集中的每个实例包含以下字段:
- question: 问题描述,字符串格式
- propositions: 选项列表,包含至少一个正确答案
- labels: 标签列表,标识每个选项是否为正确答案(0表示错误,1表示正确)
- justification: 可选字段,提供答案解释
- answerable: 布尔值,标识问题是否可回答
- uid: 唯一标识符,用于后续处理任务中的追溯
AstroMCQA数据集适用于以下场景:
- 评估语言模型在航天工程领域的性能
- 比较不同语言模型的表现
- 优化模型的量化水平和提示策略
- 评估领域适应性和特定领域的微调效果
AstroMCQA数据集不适用于:
- 训练或微调语言模型,由于数据集规模有限
数据集包含200个问题,均用英语编写,可通过Hugging Face Hub手动下载或使用Python脚本下载。数据集版本受控,更新历史可追溯。
当前局限性及未来工作:
- 数据集规模较小,仅包含200个问题,不适用于微调模型,但可以与其他数据集结合用于更大规模的微调。
- 创建多选题需要大量时间和专业知识。
- 数据集可能存在一定程度的偏差,如注释者数量有限、可能偏向欧洲航天项目等。
- 未来计划增加更多问题,引入质量控制流程以提高数据准确性。