肺炎与COVID预训练用CheXpert子集数据
数据来源:互联网公开数据
数据集简介:
本数据集是 CheXpert 胸部X光影像数据集的一个子集,包含与细菌性及病毒性肺炎(包括COVID与非COVID)相关的14种主要疾病类别。该子集专为模型预训练设计,旨在在模型学习COVID相关影像特征前,先掌握肺部基础疾病的典型影像模式,从而提升模型泛化能力并减少误学无关特征的风险。
该数据集可作为 COVID-19 影像识别任务的预训练阶段输入,帮助模型更准确地识别如肺实变(consolidation)、肺炎(pneumonia)、肺部不透明(lung opacity)等关键特征。
字段定义:
(字段内容基于CheXpert原始结构,具体视子集格式而定)
image_path:图像文件的相对路径
patient_id:病人唯一标识符
study_id:检查编号
view_position:拍摄视角(如PA、AP等)
finding_X:各疾病标签列(如 Pneumonia、Consolidation、Edema 等,共14类)
uncertainty_labeling:部分标签为“-1”表示不确定,遵循CheXpert不确定标签处理规范
intro_EDA(如有):附带的初步探索性数据分析信息表
数据特征:
数据来源:来自 Stanford University 提供的 CheXpert 数据集
数据规模:为CheXpert全体数据的子集,仅保留与COVID预训练相关的疾病样本
图像类型:胸部X光图像(黑白,DICOM或JPEG格式)
标签类型:多标签分类,部分标签存在不确定性
数据格式:结构化CSV标签文件 + 图像文件目录结构
适用场景:
COVID-19影像识别模型的预训练阶段
医疗图像分析中的肺部疾病模式识别
多标签分类模型训练与不确定性标签处理研究
医学人工智能教学与研究示例数据集
迁移学习与特征泛化能力分析任务
更新频率:
为CheXpert静态数据子集,仅随原始数据版本更新而变更
标签:医学影像,COVID-19,肺部疾病,CheXpert,多标签分类,胸部X光,模型预训练,图像识别,迁移学习,医疗AI,肺炎,数据子集