心脏疾病欠采样数据集

心脏疾病欠采样数据集 数据来源:互联网公开数据 标签:心脏疾病,欠采样,近邻算法,数据不平衡,机器学习模型,统计分析,假设检验 数据概述: 本数据集通过NearMiss-3算法对原始数据进行了欠采样处理,旨在解决心脏疾病类标签高度不平衡的问题。原始数据中仅有9%的人患有心脏疾病,这导致任何模型的性能严重偏向于多数类。经过处理后,该数据集在5种模型(逻辑回归、决策树、5-近邻、高斯朴素贝叶斯和随机森林)上的平均10折交叉验证得分达到了0.68,而原始数据集的得分仅为约0.02。这表明该数据集可以有效地用于训练预测心脏疾病模型或进行与心脏疾病相关的统计分析和假设检验。 数据用途概述: 该数据集适用于心脏疾病预测模型的训练、心脏疾病相关统计分析以及假设检验等多种场景。研究人员可以利用此数据集评估不同机器学习模型在处理不平衡数据时的表现;医疗和公共卫生机构可以借助数据识别高风险群体;统计学家可以利用数据进行深入的假设检验,以探索心脏疾病的潜在风险因素。此外,数据集也适合用于教育培训,帮助学习者理解和掌握处理不平衡数据集的方法和技巧。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.89 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。