数据2022年美国CDC心脏病健康状况年度调查数据集-mdimran6666

2022年美国CDC心脏病健康状况年度调查数据集-mdimran6666 数据来源:互联网公开数据 标签:心脏病,健康状况,美国,CDC,调查数据,机器学习,分类模型,数据不平衡,数据分析

数据概述: 本数据集包含了2022年美国疾病控制与预防中心(CDC)对约40万个成年人进行的健康状况调查数据。原始数据集包含近300个变量,经过处理后缩减至约18个关键变量。数据集不仅适用于经典的数据探索性分析(EDA),还能够用于应用各种机器学习方法,特别是分类模型(如逻辑回归、支持向量机、K近邻、XgBoost、AdaBoost、决策树、随机森林、集成学习、神经网络等)。其中,“HeartDisease”变量为二进制变量,表示受访者是否患有心脏病("Yes"表示患有心脏病,"No"表示未患有心脏病)。需要注意的是,数据集中两类样本数量严重不平衡,因此直接应用经典模型可能效果不佳。建议通过调整权重或欠采样等方式来获得更优结果。数据集中包含18个变量,其中9个布尔型变量、5个字符串型变量和4个浮点型变量。

数据用途概述: 该数据集适用于心脏病风险因素分析、健康状况评估、机器学习模型开发等多种场景。研究人员可以通过分析数据识别出哪些变量对心脏病发病风险具有显著影响;医疗保健机构可以利用该数据优化心脏病预防和管理策略;教育机构可用作教学和研究工具,帮助学生理解和掌握数据分析与机器学习技术。对于公共健康专家和数据科学家而言,该数据集是研究心脏病发病机制和风险因素的重要资源。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 22, 2025, 01:58 (UTC)
创建于 四月 22, 2025, 01:57 (UTC)