基于症状的中风风险预测数据集

该数据集经过精心策划,以支持中风风险预测研究,帮助开发估计模型: 一个人是否有中风的风险(二元分类)。 中风发生的百分比可能性(回归分析)。 它专为医疗 AI 和预测性医疗保健中的机器学习和深度学习应用而设计。数据集是平衡的,确保 50% 的记录属于有风险的个人,50% 的记录属于没有风险的个人。 数据集生成过程 数据集基于医学文献、专家咨询和统计建模构建。特征分布和关系灵感来自现实世界的临床观察,确保医学有效性。 医学参考和来源 数据集结构基于主要医学教科书、研究论文和卫生组织指南中记录的既定风险因素。主要参考资料包括: 美国中风协会 (ASA):中风风险因素和早期预警症状指南。 梅奥诊所和克利夫兰诊所:有关心血管疾病和中风风险因素的医学文献。 《哈里森内科学原理》(第 20 版):深入了解中风病因和风险因素。 《中风预防、治疗和康复》(2021 年,牛津大学出版社):有关中风机制和预防策略的综合指南。 《中风书》(剑桥医学,第 2 版):对中风症状和早期预测因素的临床见解。 世界卫生组织(WHO)关于中风风险和预防的报告。 数据集的特点 每条记录代表一个人的医疗状况、症状和风险评估。数据集包括以下特点: 症状(主要预测因素) 这些症状的存在会显著影响中风风险。这些特征是二进制的(1 = 症状存在,0 = 不存在)。 胸痛 气促 心律不齐 疲劳和虚弱 头晕 肿胀(水肿) 颈部/下颌/肩部/背部疼痛 出汗过多 持续咳嗽 恶心/呕吐 高血压 胸部不适(活动性) 手脚冰冷 打鼾/睡眠呼吸暂停 焦虑/厄运感 目标变量(预测结果) 有风险(二进制)→如果此人有中风风险,则为 1,否则为 0。 中风风险(%)→估计中风发生的概率,范围从 0 到 100。 人口统计特征 年龄→一个关键的风险因素,因为中风的患病率随着年龄的增长而增加。 为什么这个数据集准确且有用? 平衡数据分布: 50%的数据代表有中风风险的个体。 50% 代表没有风险的人。 确保模型不偏向某一特定类别。 受医学启发的特征工程: 这些特征源自现实世界的中风风险因素,并通过医学文献验证。 年龄是风险的主要决定因素。 通过加权评分方法考虑症状的严重程度。 考虑多种风险因素: 心血管症状,如胸痛、心律不齐、高血压。 头晕、疲劳和焦虑等神经系统症状。 打鼾和睡眠呼吸暂停等睡眠相关问题与中风风险增加有关。 可扩展性和 ML 适用性: 非常适合分类和回归任务。 可与深度学习(TensorFlow、PyTorch)、ML 模型(XGBoost、随机森林、SVM)和可解释的 AI 技术一起使用。 数据集的使用和应用 该数据集可用于各种医疗保健 AI 应用,包括:预测分析 – 早期中风检测和预防。医疗聊天机器人 – 实时风险评估和患者指导。医学研究 – 根据患者症状识别关键中风指标。医学中的可解释人工智能 (XAI) – 了解人工智能如何进行中风预测。

数据与资源

附加信息

字段
最后更新 二月 17, 2025, 06:52 (UTC)
创建于 二月 17, 2025, 06:46 (UTC)