乳腺癌肿瘤细胞图像诊断数据集
数据来源:互联网公开数据
标签:乳腺癌,肿瘤诊断,细胞图像,机器学习,分类,医学影像,生物特征,细胞核,良性,恶性
数据概述:
本数据集是一个经典的用于训练和评估机器学习算法的乳腺癌诊断数据集。数据集包含569个乳腺肿块的细胞学图像特征,这些肿块被分为恶性(癌变)和良性(非癌变)两类。图像特征是通过对细针穿刺活检切片进行数字化处理后提取的,主要描述了细胞核的属性,如大小、形状和规则性。数据集中共有30个特征,包括10个细胞核参数的均值、标准误差和最差值(即最大值)。
数据字段说明:
x.radius_mean:肿瘤细胞半径均值
x.texture_mean:肿瘤细胞纹理均值
x.perimeter_mean:肿瘤细胞周长均值
x.area_mean:肿瘤细胞面积均值
x.smoothness_mean:肿瘤细胞平滑度均值
x.compactness_mean:肿瘤细胞紧凑度均值
x.concavity_mean:肿瘤细胞凹陷度均值
x.concave_points_mean:肿瘤细胞轮廓凹点数量均值
x.symmetry_mean:肿瘤细胞对称性均值
x.fractal_dimension_mean:肿瘤细胞分形维数均值
x.radius_se:肿瘤细胞半径标准误差
x.texture_se:肿瘤细胞纹理标准误差
x.perimeter_se:肿瘤细胞周长标准误差
x.area_se:肿瘤细胞面积标准误差
x.smoothness_se:肿瘤细胞平滑度标准误差
x.compactness_se:肿瘤细胞紧凑度标准误差
x.concavity_se:肿瘤细胞凹陷度标准误差
x.concave_points_se:肿瘤细胞轮廓凹点数量标准误差
x.symmetry_se:肿瘤细胞对称性标准误差
x.fractal_dimension_se:肿瘤细胞分形维数标准误差
x.radius_worst:肿瘤细胞半径最差值(最大值)
x.texture_worst:肿瘤细胞纹理最差值(最大值)
x.perimeter_worst:肿瘤细胞周长最差值(最大值)
x.area_worst:肿瘤细胞面积最差值(最大值)
x.smoothness_worst:肿瘤细胞平滑度最差值(最大值)
x.compactness_worst:肿瘤细胞紧凑度最差值(最大值)
x.concavity_worst:肿瘤细胞凹陷度最差值(最大值)
x.concave_points_worst:肿瘤细胞轮廓凹点数量最差值(最大值)
x.symmetry_worst:肿瘤细胞对称性最差值(最大值)
x.fractal_dimension_worst:肿瘤细胞分形维数最差值(最大值)
y:目标变量,表示肿块的诊断结果,分为恶性(M)和良性(B)两类。
数据用途概述:
该数据集广泛应用于机器学习模型的训练和评估,特别是二分类问题。主要用途包括:
乳腺癌诊断:构建模型预测肿瘤的良恶性。
特征重要性分析:研究不同细胞核特征对诊断结果的影响。
机器学习算法比较:比较不同分类算法在医学图像诊断上的表现。
教学与研究:作为教学案例,帮助学习者理解机器学习在医学领域的应用。