数据集概述
本数据集是manabuishii/yevis-getting-started中的工作流之一,包含14个文件,涉及基因序列格式转换相关的工作流脚本、输入参数配置、示例数据及元数据文件,支持CRAM转BAM、交错FastQ转成对FastQ等序列格式转换任务。
文件详解
- 工作流脚本文件
- 文件名称:cram-to-bam.wdl、interleaved-fastq-to-paired-fastq.wdl、paired-fastq-to-unmapped-bam.wdl、bam-to-unmapped-bams.wdl
- 文件格式:.wdl
- 字段映射介绍:定义序列格式转换工作流的执行逻辑,如cram-to-bam.wdl实现CRAM转BAM的流程
- 输入参数配置文件
- 文件名称:cram-to-bam.inputs.json、interleaved-fastq-to-paired-fastq.inputs.json、bam-to-unmapped-bams.inputs.json、paired-fastq-to-unmapped-bam.inputs.json、generic.google-papi.options.json、wf_params.json
- 文件格式:.json
- 字段映射介绍:包含工作流执行所需的输入参数,如cram-to-bam.inputs.json含样本名、输入CRAM路径、参考序列字典等键值对
- 元数据文件
- 文件名称:yevis-metadata-1.0.0.yml
- 文件格式:.yml
- 字段映射介绍:存储数据集的元数据信息
- 示例数据文件
- 文件名称:NA18549.final.small_interleaved.fastq.gz
- 文件格式:.gz
- 字段映射介绍:小型交错FastQ格式的示例基因序列数据
- 说明与许可文件
- 文件名称:README.md、LICENSE
- 文件格式:.md、无后缀
- 字段映射介绍:README.md说明工作流功能,LICENSE为许可文件
数据来源
manabuishii/yevis-getting-started
适用场景
- 生物信息学工作流开发:用于构建和测试基因序列格式转换的自动化工作流
- 基因数据预处理:支持CRAM、FastQ、BAM等基因序列格式的转换与预处理
- 生物信息学工具验证:验证序列格式转换工具的执行逻辑与参数配置
- 生物信息学教学:作为基因序列格式转换工作流的示例数据,用于教学演示