数据集

数据2型糖尿病预测合成数据集

数据来源：互联网公开数据

标签：糖尿病预测,合成数据,健康风险,医疗分析,机器学习,风险评估,数据科学

数据概述：本数据集为一个基于统计学方法生成的合成数据集，旨在模拟真实世界中的2型糖尿病风险因素和预测场景。数据集包含8个关键特征，用于预测个体在未来5年内发展为2型糖尿病的风险。数据集分为两类患者：87,610名未确诊为糖尿病的健康个体，以及84,692名在观察期内被诊断为糖尿病的患者。所有数据均经过精心设计，以确保其与实际疾病趋势和风险因素高度相关。

数据用途概述：该数据集适用于开发和测试基于机器学习的2型糖尿病预测模型。研究人员可以利用这些数据探索糖尿病风险因素之间的关联，开发准确的预测算法，评估不同因素对疾病发展的影响。此外，数据集也可用于教育和培训场景，帮助理解和分析健康风险评估方法。由于数据是合成的，它为研究提供了可控的环境，避免了隐私和伦理问题，同时仍保持了对真实世界情况的模拟能力。

字段定义： 1. 年龄 (Age)：患者年龄除以100（例如，34岁表示为0.34） 2. 性别 (Sex)：0表示女性，1表示男性 3. 体育活动 (Physical Activity)：1表示活跃（每天至少30分钟额外运动），0表示不活跃 4. 酒精消费 (Alcohol Consumption)：1表示不饮酒，0表示饮酒 5. 睡眠障碍 (Sleep Disorder)：1表示存在睡眠问题（睡眠过少或过多），0表示正常睡眠（每天8小时且无睡眠障碍） 6. 体质指数 (BMI)：1表示肥胖（BMI > 25 kg/m²），0表示正常（BMI < 25 kg/m²） 7. 高血压 (Hypertension)：1表示有高血压，0表示无高血压 8. 高胆固醇 (High Cholesterol)：1表示有高胆固醇，0表示无高胆固醇 9. 预测结果 (Diagnosis/Prediction)：1表示高风险（可能在5年内发展为糖尿病），0表示低风险（可能保持健康）

数据特征： - 数据集包含总计172,302条记录，分为两组：健康个体和糖尿病患者。 - 各特征均为二值化编码，便于机器学习模型处理。 - 数据基于真实统计学规律生成，模拟了糖尿病发展的多方面因素。

应用场景： - 医疗健康领域：用于开发早期糖尿病预测模型，帮助识别高风险个体。 - 学术研究：用于研究糖尿病风险因素的复杂交互作用。 - 教育培训：用于教学和案例分析，帮助学习者理解健康风险评估方法。 - 机器学习研究：用于测试和优化分类算法的性能。

参考文献： 1. Tagmatova, Z.; Abdusalomov, A.; Nasimov, R.; Nasimova, N.; Dogru, A.H.; Cho, Y.-I. New Approach for Generating Synthetic Medical Data to Predict Type 2 Diabetes. Bioengineering 2023, 10, 1031. https://doi.org/10.3390/bioengineering10091031

注意：如在发表研究中使用该数据集，请务必引用上述文献。

数据与资源

数据2型糖尿病预测合成数据集.zipZIP
0.51 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.51 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

数据2型糖尿病预测合成数据集

数据与资源

附加信息

注册成功！