数据集概述
本数据集是论文《Sybil: A Validated Deep Learning Model to Predict Future Lung Cancer Risk From a Single Low-Dose Chest Computed Tomography》的配套数据,包含模型验证所需的校准器、数据拆分映射、NLST数据集标注及模型文件等,共6个文件,支持Sybil深度学习模型的复现与应用。
文件详解
- 压缩文件(Archive files)
- 文件名称:calibrators.zip
- 文件格式:ZIP
- 字段映射介绍:模型校准相关文件压缩包,具体内容未提供预览
- 文件名称:models.zip
- 文件格式:ZIP
- 字段映射介绍:Sybil深度学习模型文件压缩包,具体内容未提供预览
- 数据文件(Data files)
- 文件名称:pid2split.csv
- 文件格式:CSV
- 字段映射介绍:包含PID(患者ID)、SPLIT(数据拆分类型,如train、test、dev)两个字段,记录患者数据的拆分分配
- 文件名称:data_splits.p
- 文件格式:PICKLE
- 字段映射介绍:数据拆分相关的序列化文件,具体内容未提供预览
- 文件名称:pid_tp_series2split.p
- 文件格式:PICKLE
- 字段映射介绍:患者时间点序列与数据拆分映射的序列化文件,具体内容未提供预览
- 其他文件(Other files)
- 文件名称:nlst_annotations.json
- 文件格式:JSON
- 字段映射介绍:NLST(国家肺部筛查试验)数据集的标注文件,具体内容未提供预览
数据来源
论文“Sybil: A Validated Deep Learning Model to Predict Future Lung Cancer Risk From a Single Low-Dose Chest Computed Tomography”(GitHub仓库:http://github.com/reginabarzilaygroup/Sybil)
适用场景
- 肺癌风险预测模型研究:支持Sybil深度学习模型的复现、验证与优化,分析低剂量胸部CT影像的肺癌风险预测效果
- 医学影像AI模型开发:为基于胸部CT的癌症风险预测模型提供数据拆分、标注及模型文件参考
- 医疗数据挖掘:通过患者ID与数据拆分映射,探索NLST数据集在肺癌风险预测中的应用
- 深度学习模型校准研究:利用校准器文件,优化模型在不同数据分布下的预测性能