该数据集经过精心策划,以支持中风风险预测研究,帮助开发估计模型:
一个人是否有中风的风险(二元分类)。
中风发生的百分比可能性(回归分析)。
它专为医疗 AI 和预测性医疗保健中的机器学习和深度学习应用而设计。数据集是平衡的,确保 50% 的记录属于有风险的个人,50% 的记录属于没有风险的个人。
数据集生成过程
数据集基于医学文献、专家咨询和统计建模构建。特征分布和关系灵感来自现实世界的临床观察,确保医学有效性。
医学参考和来源
数据集结构基于主要医学教科书、研究论文和卫生组织指南中记录的既定风险因素。主要参考资料包括:
美国中风协会 (ASA):中风风险因素和早期预警症状指南。
梅奥诊所和克利夫兰诊所:有关心血管疾病和中风风险因素的医学文献。
《哈里森内科学原理》(第 20 版):深入了解中风病因和风险因素。
《中风预防、治疗和康复》(2021 年,牛津大学出版社):有关中风机制和预防策略的综合指南。
《中风书》(剑桥医学,第 2 版):对中风症状和早期预测因素的临床见解。
世界卫生组织(WHO)关于中风风险和预防的报告。
数据集的特点
每条记录代表一个人的医疗状况、症状和风险评估。数据集包括以下特点:
症状(主要预测因素)
这些症状的存在会显著影响中风风险。这些特征是二进制的(1 = 症状存在,0 = 不存在)。
胸痛
气促
心律不齐
疲劳和虚弱
头晕
肿胀(水肿)
颈部/下颌/肩部/背部疼痛
出汗过多
持续咳嗽
恶心/呕吐
高血压
胸部不适(活动性)
手脚冰冷
打鼾/睡眠呼吸暂停
焦虑/厄运感
目标变量(预测结果)
有风险(二进制)→如果此人有中风风险,则为 1,否则为 0。
中风风险(%)→估计中风发生的概率,范围从 0 到 100。
人口统计特征
年龄→一个关键的风险因素,因为中风的患病率随着年龄的增长而增加。
为什么这个数据集准确且有用?
平衡数据分布:
50%的数据代表有中风风险的个体。
50% 代表没有风险的人。
确保模型不偏向某一特定类别。
受医学启发的特征工程:
这些特征源自现实世界的中风风险因素,并通过医学文献验证。
年龄是风险的主要决定因素。
通过加权评分方法考虑症状的严重程度。
考虑多种风险因素:
心血管症状,如胸痛、心律不齐、高血压。
头晕、疲劳和焦虑等神经系统症状。
打鼾和睡眠呼吸暂停等睡眠相关问题与中风风险增加有关。
可扩展性和 ML 适用性:
非常适合分类和回归任务。
可与深度学习(TensorFlow、PyTorch)、ML 模型(XGBoost、随机森林、SVM)和可解释的 AI 技术一起使用。
数据集的使用和应用
该数据集可用于各种医疗保健 AI 应用,包括:预测分析 – 早期中风检测和预防。医疗聊天机器人 – 实时风险评估和患者指导。医学研究 – 根据患者症状识别关键中风指标。医学中的可解释人工智能 (XAI) – 了解人工智能如何进行中风预测。