科学代理基准测试数据集-多学科任务评估-henryshan

科学代理基准测试数据集-多学科任务评估-henryshan 数据来源：互联网公开数据标签：科学代理,语言模型,自动化,科学发现,基准测试,数据驱动,评估,Python程序,多学科

数据概述：本数据集旨在评估基于语言模型的智能代理在科学发现中的表现，特别关注在科学工作流程中的具体任务。数据集名为ScienceAgentBench，包含从四个学科的44篇同行评审论文中提取的102个任务。为确保基准测试的科学性和实际应用价值，我们邀请九位领域专家对这些任务进行了验证。

每个任务的目标输出被统一为一个独立的Python程序文件，以便于评估生成程序的质量、执行结果以及相关成本。评估指标包括代码质量和执行效果等。任务经过多轮人工验证，以确保注释的质量和科学的合理性。

数据用途概述：该数据集适用于评估语言代理在科学发现中的表现，支持科学研究人员和开发者进行系统的、客观的性能评估。数据集可用于验证智能代理在具体科学任务中的能力，为实现科学发现的端到端自动化提供可靠依据。此外，数据集亦可用于教育和培训，帮助学生和研究人员理解智能代理在科学研究中的应用和局限性。

数据与资源

字段	值
版本	1.0
数据集大小	0.07 MiB
最后更新	2025年4月21日
创建于	2025年4月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。