数据集概述
本数据集包含6个PDF文件,围绕大语言模型(LLMs)在生物信息学科学工作流开发中的应用展开多维度评估,涵盖LLMs对基础概念、Galaxy与Nextflow平台的理解,以及针对具体任务生成实际工作流的能力。
文件详解
- 基础概念评估文件:
- Table-2 Fundamental_Concepts_Of_Scientific_Workflow_and_SWS.pdf:PDF格式,记录GPT-4o、Gemini 2.5 Flash、DeepSeek-V3对科学工作流及系统基础概念问题的回答,评估通用知识理解。
- Table-3 LLMs Understanding of Galaxy and Nextflow.pdf:PDF格式,包含LLMs对Galaxy和Nextflow平台背景问题的回答,涉及架构、工具、可重复性及关键功能(如Galaxy ToolShed、Nextflow DSL与nf-core集成)。
- 工作流任务理解文件:
- Table-4-workflow specific background prompts Galaxy.pdf:PDF格式,针对Galaxy平台设计的生物信息学任务背景问题,评估LLMs对域内任务(如SNP富集外显子识别、峰-基因关联)的理解。
- Table-5 Workflow specific background prompts Nextflow.pdf:PDF格式,针对Nextflow平台的生物信息学任务背景问题,涉及甲基化数据处理等域内任务理解。
- 生成工作流展示文件:
- LLMs Generated workflows using Galaxy Workflow System.pdf:PDF格式,展示LLMs基于结构化提示生成的Galaxy工作流,包含FastQC、BEDTools等工具的分步分析流程及解释。
- LLMs generated workflows using Nextflow Workflow System.pdf:PDF格式,展示LLMs生成的Nextflow工作流,对比不同LLM对分析任务的结构设计、步骤序列及工具使用(如MultiQC)。
适用场景
- 大语言模型能力评估:分析LLMs在生物信息学领域的概念理解、平台知识及工作流生成能力差异。
- 科学工作流自动化研究:探索LLMs辅助构建Galaxy与Nextflow生物信息学工作流的可行性与优化方向。
- 生物信息学工具应用研究:基于LLM生成的工作流实例,研究FastQC、BEDTools等工具在实际分析中的组合与应用逻辑。
- 人工智能在科研中的应用:评估AI模型对专业领域知识的掌握及生成可执行科研流程的潜力。