数据16S核糖体RNA基因口腔序列数据集

数据集概述

本数据集包含人类口腔细菌和古菌完整基因组中的16S rRNA基因数量及其变体信息,涵盖3192个口腔细菌和191个口腔古菌的完整基因组,可通过提供的Python脚本按分类学筛选序列并计算分类群的基因数平均值。

文件详解

  • 序列数据文件:
  • bacteria_genes.fasta、archaea_genes.fasta: FASTA格式,分别存储口腔细菌和古菌的16S rRNA基因序列
  • bacteria_variants.fasta、archaea_variants.fasta: FASTA格式,分别存储口腔细菌和古菌的16S rRNA基因序列变体
  • 表格数据文件:
  • bacteria_variants.csv、archaea_variants.csv: CSV格式,包含基因变体的分类学信息、基因数量、序列长度等字段(如taxonomy_id、num_genes、variant_length)
  • bacteria_divergence.csv、archaea_divergence.csv: CSV格式,包含基因序列的比对信息(如pident、qcovs、evalue)
  • bacteria_variants_toy.csv: CSV格式,小型示例数据文件,字段与完整变体文件类似
  • 分析脚本与配置文件:
  • tax_filter.py: Python脚本,用于按分类学筛选序列并计算分类群的基因数平均值
  • run_tax_filter.ipynb: Jupyter Notebook,提供脚本运行的示例流程
  • environment.yml、requirements.txt: 环境配置文件,记录依赖的Python库及其版本
  • 文档与许可证文件:
  • README.md: 数据集使用指南,包含作者信息、数据内容说明
  • LICENSE: 许可证文件,规定数据使用权限

适用场景

  • 口腔微生物组研究: 分析口腔细菌和古菌的16S rRNA基因拷贝数变异
  • 微生物丰度校正: 为基于基因计数的微生物丰度估算技术(如高通量测序)提供准确的基因拷贝数参考
  • 临床微生物学应用: 支持口腔疾病相关的微生物群落结构分析
  • 生物信息学方法开发: 用于测试微生物分类学筛选和基因数统计的算法工具
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 60.59 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。