数据集概述
本数据集包含基于NCBI GenBank等公共DNA数据库开发的标本级分析工具包及应用案例数据,核心为Carex属(莎草科)的多基因序列分析结果,含基因比对文件、矩阵文件及分析工具代码,可支持物种一致性检验与最优序列筛选,是生物多样性研究中标本级数据分析的工具参考与数据示例。
文件详解
- 文件名称:README_for_ALL.GCC.FILES.txt
- 文件格式:TXT
- 字段映射介绍:描述NCBI 2015 Carex论文及2016修订版所用文件信息,含联系人Andrew Hipp(ahipp@mortonarb.org),并列出ALIGNMENTS(11个基因区域文件)、MATRICES(6个分析数据集文件,含5_gene、12_gene等分组)的内容说明
- 文件名称:ALL.GCC.FILES.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内含ALIGNMENTS(11个基因区域比对文件)、MATRICES(6个分析矩阵文件,对应不同基因组合数据集)及分析工具代码,支持标本级DNA数据的多基因序列分析
数据来源
The Morton Arboretum(联系人Andrew Hipp,ahipp@mortonarb.org)
适用场景
- 生物多样性研究: 利用标本级DNA数据构建个体树,分析Carex属物种的系统发育关系与物种一致性
- 公共DNA数据库挖掘: 基于NCBI GenBank等数据库开展标本级多基因序列的整合分析
- 生物信息学工具开发: 参考R语言工具包框架,拓展至其他物种的标本级DNA数据分析
- 分类学修订支持: 通过Taxonomic Disparity Index(TDI)统计量辅助标本数据集的 curated 与物种代表序列筛选
- 基因区域选择研究: 比较不同基因组合(如5_gene、12_gene)对系统发育分析结果的影响