科学代理基准测试数据集-多学科任务评估-henryshan

科学代理基准测试数据集-多学科任务评估-henryshan 数据来源:互联网公开数据 标签:科学代理,语言模型,自动化,科学发现,基准测试,数据驱动,评估,Python程序,多学科

数据概述: 本数据集旨在评估基于语言模型的智能代理在科学发现中的表现,特别关注在科学工作流程中的具体任务。数据集名为ScienceAgentBench,包含从四个学科的44篇同行评审论文中提取的102个任务。为确保基准测试的科学性和实际应用价值,我们邀请九位领域专家对这些任务进行了验证。

每个任务的目标输出被统一为一个独立的Python程序文件,以便于评估生成程序的质量、执行结果以及相关成本。评估指标包括代码质量和执行效果等。任务经过多轮人工验证,以确保注释的质量和科学的合理性。

数据用途概述: 该数据集适用于评估语言代理在科学发现中的表现,支持科学研究人员和开发者进行系统的、客观的性能评估。数据集可用于验证智能代理在具体科学任务中的能力,为实现科学发现的端到端自动化提供可靠依据。此外,数据集亦可用于教育和培训,帮助学生和研究人员理解智能代理在科学研究中的应用和局限性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.07 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。