乳腺癌肿瘤诊断数据集-威斯康星州-20世纪90年代

乳腺癌肿瘤诊断数据集-威斯康星州-20世纪90年代 数据来源:互联网公开数据 标签:乳腺癌,肿瘤,诊断,分类,机器学习,医疗,肿瘤学,病理学,监督学习 数据概述: 本数据集收录了威斯康星州医院的乳腺癌肿瘤诊断信息,旨在预测肿瘤是良性(B)还是恶性(M)。数据集包含569个样本,每个样本有33个特征,这些特征描述了细胞核的各种测量指标,例如半径、纹理、周长等。数据集中良性肿瘤的样本数量为357个,恶性肿瘤的样本数量为212个。数据分析发现,半径均值与最差均值之间存在高度相关性,表明恶性肿瘤通常具有较大的半径。通过进一步探索,发现多个特征之间存在多重共线性。为了消除这种影响,可以移除相关性较高的特征。

数据用途概述: 该数据集主要用于机器学习模型的训练和评估,特别是用于二元分类问题。研究人员可以使用该数据集开发和测试各种分类算法,例如逻辑回归、随机森林、决策树、K近邻、支持向量机(SVM)和朴素贝叶斯等。通过分析分类报告、混淆矩阵和准确率等指标,可以评估模型的性能。此外,该数据集也适用于探索特征之间的关系,进行特征选择和降维,以及改进模型性能,例如通过集成学习技术。该数据集在医学研究和医疗诊断领域具有重要的应用价值,可用于辅助医生进行乳腺癌的诊断和治疗。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.66 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。