数据集概述
本数据集为有限训练数据下分类器性能预测研究的配套数据,用于乳腺癌和前列腺癌计算机辅助诊断场景。包含三类任务数据(前列腺组织病理学、乳腺组织病理学、前列腺磁共振波谱)及对应说明文档,支持验证基于随机重复采样与交叉验证的性能预测框架,涉及k近邻、朴素贝叶斯、支持向量机三种分类器的误差率分析。
文件详解
- 文档文件(.txt):
- 文件名称:README_for_D1.txt、README_for_D2.txt、README_for_D3.txt
- 文件格式:TXT
- 字段映射介绍:分别对应D1、D2、D3数据集的说明文档,包含数据来源、样本构成、标注信息等内容(如D3涉及1.5特斯拉T2加权MRI和MRS研究数据,由专家放射科医生标注癌性与良性元体素)。
- 压缩数据文件(.zip):
- 文件名称:D1.zip、D2.zip、D3.zip
- 文件格式:ZIP
- 字段映射介绍:三类任务的原始数据集压缩包,D1对应前列腺组织病理学任务、D2对应乳腺组织病理学任务、D3对应前列腺磁共振波谱任务,包含样本数据及标注信息。
数据来源
论文“Predicting classifier performance with limited training data: applications to computer-aided diagnosis in breast and prostate cancer”
适用场景
- 有限训练数据分类器性能评估:验证小样本下k近邻、朴素贝叶斯、支持向量机的误差率预测准确性。
- 医学影像辅助诊断研究:分析乳腺癌和前列腺癌影像数据(组织病理学、MRI/MRS)的分类任务优化方向。
- 采样策略对比分析:比较随机重复采样结合交叉验证与传统随机重复采样的误差率稳定性差异。
- 临床诊断模型选择:为临床实验中基于小样本数据选择合适分类器提供数据支持。