航天多选题数据集

航天多选题数据集 数据来源:互联网公开数据 标签:航天工程,多选题,语言模型评估,模型比较,领域适应,提示策略,量化水平

数据概述: 本数据集名为AstroMCQA,包含200个由专家创建的航天工程领域的多选题及其答案,涵盖多个子领域,如推进系统、操作、载人航天、空间环境影响、项目生命周期、通信和链路分析等。每个题目包含问题描述、选项列表、正确答案标识、答案解释以及唯一标识符等字段。

数据用途概述: AstroMCQA主要用于评估语言模型(LLM)在航天工程领域多选题回答任务中的表现。开发者可以利用此数据集进行不同语言模型的比较评估、模型审核和选择、量化水平评估、提示策略优化以及领域特定微调效果评估等研究。该数据集对于理解不同模型在航天工程中的表现非常有用。

举例: AstroMCQA数据集中的每个实例包含以下字段: - question: 问题描述,字符串格式 - propositions: 选项列表,包含至少一个正确答案 - labels: 标签列表,标识每个选项是否为正确答案(0表示错误,1表示正确) - justification: 可选字段,提供答案解释 - answerable: 布尔值,标识问题是否可回答 - uid: 唯一标识符,用于后续处理任务中的追溯

AstroMCQA数据集适用于以下场景: - 评估语言模型在航天工程领域的性能 - 比较不同语言模型的表现 - 优化模型的量化水平和提示策略 - 评估领域适应性和特定领域的微调效果

AstroMCQA数据集不适用于: - 训练或微调语言模型,由于数据集规模有限

数据集包含200个问题,均用英语编写,可通过Hugging Face Hub手动下载或使用Python脚本下载。数据集版本受控,更新历史可追溯。

当前局限性及未来工作: - 数据集规模较小,仅包含200个问题,不适用于微调模型,但可以与其他数据集结合用于更大规模的微调。 - 创建多选题需要大量时间和专业知识。 - 数据集可能存在一定程度的偏差,如注释者数量有限、可能偏向欧洲航天项目等。 - 未来计划增加更多问题,引入质量控制流程以提高数据准确性。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 14, 2025, 12:06 (UTC)
创建于 四月 14, 2025, 12:06 (UTC)