数据集概述
本数据集是Earl Grey转座元件注释分析管道的配套补充文件,包含参数选择说明、模拟基因组配置、参考注释、补充表格及结果图表等7个文件,为该自动化分析工具的使用与验证提供支持。
文件详解
- 文件名称: additionalFile1_BEATparameterSelection.docx
- 文件格式: DOCX (.docx)
- 内容说明: 介绍BLAST、Extend、Align、Trim(BEAT)流程默认参数的选择依据与结果讨论
- 文件名称: additionalFile2_simulatedGenomeConfigs.tar.gz
- 文件格式: GZ压缩包 (.tar.gz)
- 内容说明: 包含生成9个模拟基因组所需的配置文件和转座元件(TE)家族数据
- 文件名称: additionalFile3_rawAnnotations.tar.gz
- 文件格式: GZ压缩包 (.tar.gz)
- 内容说明: 包含模拟基因组中转座元件注释的参考坐标(GFF格式)及各软件生成的原始注释文件
- 文件名称: additionalFile4_supplementaryTables.xlsx
- 文件格式: Excel (.xlsx)
- 内容说明: 包含所有补充表格及目录页
- 文件名称: additionalFile5_consensusLengthComparisons.pdf
- 文件格式: PDF (.pdf)
- 内容说明: 展示不同方法生成的转座元件共识序列长度与真实长度的分布对比
- 文件名称: additionalFile6_consensusLengthExtendedForEDTA.pdf
- 文件格式: PDF (.pdf)
- 内容说明: 扩展版图5a,展示EDTA方法生成的超出原图表显示范围的共识序列长度分布
- 文件名称: additionalFile7_drosophilaAnnotations.tar.gz
- 文件格式: GZ压缩包 (.tar.gz)
- 内容说明: 包含各软件对黑腹果蝇(D. melanogaster)转座元件的GFF格式注释文件
适用场景
- 生物信息学工具验证: 支持Earl Grey转座元件注释分析管道的方法学验证与参数优化研究
- 转座元件注释比较: 用于不同转座元件注释软件的性能对比分析
- 基因组模拟研究: 为模拟基因组构建及转座元件注释评估提供基础数据
- 生物信息学教学: 可作为转座元件分析流程及文件格式(GFF、压缩包等)的教学案例