数据集概述
本数据集包含人类口腔细菌和古菌完整基因组中的16S rRNA基因数量及其变体信息,涵盖3192个口腔细菌和191个口腔古菌的完整基因组,可通过提供的Python脚本按分类学筛选序列并计算分类群的基因数平均值。
文件详解
- 序列数据文件:
- bacteria_genes.fasta、archaea_genes.fasta: FASTA格式,分别存储口腔细菌和古菌的16S rRNA基因序列
- bacteria_variants.fasta、archaea_variants.fasta: FASTA格式,分别存储口腔细菌和古菌的16S rRNA基因序列变体
- 表格数据文件:
- bacteria_variants.csv、archaea_variants.csv: CSV格式,包含基因变体的分类学信息、基因数量、序列长度等字段(如taxonomy_id、num_genes、variant_length)
- bacteria_divergence.csv、archaea_divergence.csv: CSV格式,包含基因序列的比对信息(如pident、qcovs、evalue)
- bacteria_variants_toy.csv: CSV格式,小型示例数据文件,字段与完整变体文件类似
- 分析脚本与配置文件:
- tax_filter.py: Python脚本,用于按分类学筛选序列并计算分类群的基因数平均值
- run_tax_filter.ipynb: Jupyter Notebook,提供脚本运行的示例流程
- environment.yml、requirements.txt: 环境配置文件,记录依赖的Python库及其版本
- 文档与许可证文件:
- README.md: 数据集使用指南,包含作者信息、数据内容说明
- LICENSE: 许可证文件,规定数据使用权限
适用场景
- 口腔微生物组研究: 分析口腔细菌和古菌的16S rRNA基因拷贝数变异
- 微生物丰度校正: 为基于基因计数的微生物丰度估算技术(如高通量测序)提供准确的基因拷贝数参考
- 临床微生物学应用: 支持口腔疾病相关的微生物群落结构分析
- 生物信息学方法开发: 用于测试微生物分类学筛选和基因数统计的算法工具