数据2型糖尿病预测合成数据集

数据2型糖尿病预测合成数据集

数据来源:互联网公开数据

标签:糖尿病预测,合成数据,健康风险,医疗分析,机器学习,风险评估,数据科学

数据概述: 本数据集为一个基于统计学方法生成的合成数据集,旨在模拟真实世界中的2型糖尿病风险因素和预测场景。数据集包含8个关键特征,用于预测个体在未来5年内发展为2型糖尿病的风险。数据集分为两类患者:87,610名未确诊为糖尿病的健康个体,以及84,692名在观察期内被诊断为糖尿病的患者。所有数据均经过精心设计,以确保其与实际疾病趋势和风险因素高度相关。

数据用途概述: 该数据集适用于开发和测试基于机器学习的2型糖尿病预测模型。研究人员可以利用这些数据探索糖尿病风险因素之间的关联,开发准确的预测算法,评估不同因素对疾病发展的影响。此外,数据集也可用于教育和培训场景,帮助理解和分析健康风险评估方法。由于数据是合成的,它为研究提供了可控的环境,避免了隐私和伦理问题,同时仍保持了对真实世界情况的模拟能力。

字段定义: 1. 年龄 (Age):患者年龄除以100(例如,34岁表示为0.34) 2. 性别 (Sex):0表示女性,1表示男性 3. 体育活动 (Physical Activity):1表示活跃(每天至少30分钟额外运动),0表示不活跃 4. 酒精消费 (Alcohol Consumption):1表示不饮酒,0表示饮酒 5. 睡眠障碍 (Sleep Disorder):1表示存在睡眠问题(睡眠过少或过多),0表示正常睡眠(每天8小时且无睡眠障碍) 6. 体质指数 (BMI):1表示肥胖(BMI > 25 kg/m²),0表示正常(BMI < 25 kg/m²) 7. 高血压 (Hypertension):1表示有高血压,0表示无高血压 8. 高胆固醇 (High Cholesterol):1表示有高胆固醇,0表示无高胆固醇 9. 预测结果 (Diagnosis/Prediction):1表示高风险(可能在5年内发展为糖尿病),0表示低风险(可能保持健康)

数据特征: - 数据集包含总计172,302条记录,分为两组:健康个体和糖尿病患者。 - 各特征均为二值化编码,便于机器学习模型处理。 - 数据基于真实统计学规律生成,模拟了糖尿病发展的多方面因素。

应用场景: - 医疗健康领域:用于开发早期糖尿病预测模型,帮助识别高风险个体。 - 学术研究:用于研究糖尿病风险因素的复杂交互作用。 - 教育培训:用于教学和案例分析,帮助学习者理解健康风险评估方法。 - 机器学习研究:用于测试和优化分类算法的性能。

参考文献: 1. Tagmatova, Z.; Abdusalomov, A.; Nasimov, R.; Nasimova, N.; Dogru, A.H.; Cho, Y.-I. New Approach for Generating Synthetic Medical Data to Predict Type 2 Diabetes. Bioengineering 2023, 10, 1031. https://doi.org/10.3390/bioengineering10091031

注意:如在发表研究中使用该数据集,请务必引用上述文献。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 15, 2025, 09:36 (UTC)
创建于 四月 15, 2025, 09:36 (UTC)