数据集概述
本数据集是与2022年发表的研究论文相关的开放数据,包含用于最终GBM模型的十项特征匿名数据,以及研究中使用的Python和R脚本及其输出,可支持非小细胞肺癌纵隔淋巴结转移预测模型的复现与应用。
文件详解
- 说明文件:
- content_description_2022_11_19.txt:TXT格式,提供所有文件的详细描述
- WP21_Open_Data_Dictionary_2022_11_19.pdf:PDF格式,数据字典,解释数据字段含义
- 数据文件:
- 匿名数据集文件:如WP21_Patient_2022_11_01_english_anonymized.sav、WP21_Patient_2022_11_01_english_anonymized.csv等,包含模型所需的十项特征数据
- 模型结果文件:如WP21_sklearn_robust_scaled_gbm_final_n10_predictions.sav、WP21_sklearn_robust_scaled_gbm_final_n10_predictions.csv等,存储模型预测结果
- 模型重要性文件:如WP21_sklearn_robust_scaled_gbm_final_n10_importance.csv、WP21_sklearn_robust_scaled_gbm_final_n10_importance.sav等,记录特征重要性数据
- 统计结果文件:如WP21_sklearn_robust_scaled_nX_results.csv,包含模型评估指标(如均值、标准差)
- 代码文件:
- Python脚本:如WP21_2022_11_01-gbm_final-n10-predict_english_csv.py等,共四个,用于模型预测与重要性分析
- R脚本:如WP21_Toney_predicted_proba_2022_09_21_csv.R等,共两个,用于概率预测与AUC计算
- Jupyter Notebook文件:如WP21_2022_11_19_english_csv.ipynb等,共四个,记录代码运行过程与结果
适用场景
- 医学影像机器学习研究:用于复现基于FDG-PET/CT的淋巴结转移预测模型
- 肺癌诊断辅助工具开发:基于模型结果优化临床淋巴结分期流程
- 机器学习模型评估:分析GBM模型在医疗数据中的特征重要性与预测性能
- 医疗数据匿名化实践:研究医疗数据开放共享中的隐私保护方法