数据集概述
本数据集包含匿名化的分子诊断结果、人口统计元数据及衍生分析数据,覆盖2014年1月至2025年3月期间的胃肠道病原体多重PCR检测信息,支持复现已发表的统计与机器学习分析,可用于研究病原体流行率、季节性及预测建模。
文件详解
- 核心数据文件(Excel格式):
- Dataset 1. GIT-No-toxins_deidentified.xlsx:不含毒素基因的胃肠道多重PCR检测数据,每行对应一次样本检测
- Dataset 2. CD-Toxins_deidentified.xlsx:艰难梭菌毒素分型数据,含菌种及毒素基因存在情况
- Dataset 3. Ecoli-Shigella-toxins_deidentified.xlsx:大肠杆菌(O157/志贺毒素)及志贺氏菌分型检测结果
- Dataset 4. Statistics & ML_deidentified.xlsx:机器学习模型(逻辑回归、随机森林、XGBoost)分析结果,含预测值、性能指标及特征重要性
- Dataset 5. Seasonality-Temporal dynamics_deidentified.xlsx:月度聚合数据及统计结果,用于季节性分析
- 图像文件(TIFF格式):
- 包含SHAP值图、共现网络图、缺失值矩阵、Upset图、堆叠柱状图等可视化结果文件
数据来源
Medical Diagnostic Laboratories LLC
适用场景
- 胃肠道病原体流行病学研究:分析流行率、季节性变化趋势
- 微生物毒素特征分析:探究艰难梭菌、大肠杆菌等病原体的毒素基因分布
- 预测建模研究:基于机器学习模型开展病原体感染风险预测
- 临床诊断应用:支持胃肠道感染分子诊断方法的效果评估
- 公共卫生监测:为区域肠道传染病防控提供数据支撑