数据集概述
本数据集为限制性内切酶诊断分类法(CURED)研究的补充文件,包含多种金黄色葡萄球菌(S. aureus)及其他菌株的CURED分析输出文件、诊断等位基因序列文件、数据处理Python脚本和基因组分类标注文件,支持相关研究的复现与扩展分析。
文件详解
该数据集包含多个文本、序列及脚本文件,具体说明如下:
- 金黄色葡萄球菌(S. aureus)分析输出文件:
- RdJ_Main_output.txt:RdJ菌株数据集运行CURED_Main.py的输出结果
- RdJ_RE_output.txt:RdJ菌株数据集运行CURED_FindREs.py的输出结果
- SAE_Main_output.txt:USA300 SAE菌株数据集运行CURED_Main.py的输出结果
- SAE_RE_output.txt:USA300 SAE菌株数据集运行CURED_FindREs.py的输出结果
- NAE_Main_output.txt:USA300 NAE菌株数据集运行CURED_Main.py的输出结果
- NAE_RE_input.txt:USA300 NAE菌株数据集运行CURED_FindREs.py的输入文件
- NAE_RE_output.txt:USA300 NAE菌株数据集运行CURED_FindREs.py的输出结果
- 诊断等位基因序列文件:
- NAE_diagnostic_alleles.faa:Bianco等人研究中NAE分支的诊断等位基因序列
- SAE_diagnostic_alleles.faa:Bianco等人研究中SAE分支的诊断等位基因序列
- 数据处理脚本文件:
- calculate_sensitivity_specificity.py:用于计算CURED识别k-mer的敏感性和特异性的Python脚本
- randomly_subset_data.py:用于随机子集化数据的Python脚本
- ToolComparisonFigure.R:用于生成Figure 2a的R脚本
- 基因组分类标注文件:
- batching_case_control_all.txt:Figure 2a使用的所有基因组及其病例/对照分类
- controls_with_kmer.txt:未归类为RdJ基因组但含RdJ k-mer的基因组(排除于Figure 2a)
- 其他菌株分析文件:
- Acinetobacter_Main_output.txt:鲍曼不动杆菌(A. baumannii)数据集运行CURED_Main.py的输出结果
- Acinetobacter_RE_input.txt:鲍曼不动杆菌数据集运行CURED_FindREs.py的输入文件
- Acinetobacter_RE_output.txt:鲍曼不动杆菌数据集运行CURED_FindREs.py的输出结果
- Cdiff_Main_output.txt:艰难梭菌(C. difficile)数据集运行CURED_Main.py的输出结果
- Cdiff_RE_input.txt:艰难梭菌数据集运行CURED_FindREs.py的输入文件
- Cdiff_RE_output.txt:艰难梭菌数据集运行CURED_FindREs.py的输出结果
- Cluster 1分析相关文件:
- Cluster1_Main_output.txt:CHOP数据集Cluster 1运行CURED_Main.py的输出结果
- Cluster1_SimpleMode_input.txt:全局数据集Cluster 1运行CURED_Main.py简易模式的输入文件
- Cluster1_SimpleMode_output.txt:全局数据集Cluster 1运行CURED_Main.py简易模式的输出结果
- Cluster1_SimpleMode_UniqueKmers.txt:全局数据集Cluster 1简易模式识别的独特k-mer序列
- Cluster1_RE_local_input.txt:CHOP数据集Cluster 1运行CURED_FindREs.py的输入文件
- Cluster1_RE_local_output.txt:CHOP数据集Cluster 1运行CURED_FindREs.py的输出结果
- Cluster1_Global_input.txt:全局数据集Cluster 1运行CURED_FindREs.py的输入文件
- Cluster1_Global_output.txt:全局数据集Cluster 1运行CURED_FindREs.py的输出结果
- Cluster1_UniqueEnzymes_PCR_Regions.txt:Cluster 1独特限制性酶切位点k-mer的虚拟PCR目标区域
- 其他分析文件:
- calculate_sensitivity_specificity.py:计算k-mer敏感性和特异性的Python脚本
- batching_case_control_all.txt:Figure 2a使用的基因组病例/对照分类标注文件
- controls_with_kmer.txt:含RdJ k-mer但未归类为RdJ的基因组(排除于Figure 2a)
- randomly_subset_data.py:随机子集化数据的Python脚本
- ToolComparisonFigure.R:生成Figure 2a的R脚本
- kec_output.raw:全数据集运行KEC的原始输出结果
- kec_output.parsed:kec_output.raw运行count_seqs.py的解析结果
适用场景
- 微生物分类研究:支持使用限制性内切酶诊断分类法进行菌株分类的方法学验证
- 基因组分析复现:帮助复现金黄色葡萄球菌及其他菌株的CURED分析流程
- 生物信息学方法开发:为k-mer识别、敏感性特异性计算等算法优化提供数据支持
- 微生物诊断研究:可用于验证诊断等位基因序列在菌株分型中的应用价值
- 科学研究补充分析:为相关微生物学研究提供补充数据资源