CIBMRT清理后的数据集
数据来源:互联网公开数据
标签:CIBMRT,数据清理,机器学习,预测建模,探索性数据分析,医疗数据,移植数据
数据概述:
本数据集来自于Kaggle上的CIBMTR比赛数据集。数据预处理的主要 focus 在于处理缺失值,而不改变特征分布或引入额外的转换。数值特征的缺失值通过MinMaxScaling后使用KNNImputer进行填补,以确保在不同范围内的填补一致性。类别特征的缺失值则使用SimpleImputer的'most_frequent'策略进行填补,以保持逻辑一致性。对于关键类别特征tce_imm_match、tce_div_match和tce_match,使用了自定义值映射方法,具体映射如下:
- 映射A:
'P/P' → 'Permissive mismatched'
'G/G' → 'GvH non-permissive'
'H/H' → 'HvG non-permissive'
- 映射B:
'Permissive mismatched' → 'Permissive'
'GvH non-permissive' → 'GvH non-permissive'
'HvG non-permissive' → 'HvG non-permissive'
数据用途概述:
该数据集适用于预测建模和探索性数据分析等多种场景。研究人员和数据科学家可以利用此数据集进行移植相关分析,评估不同特征对移植结果的影响。此外,该数据集也适合用于教育培训,帮助学习者理解移植数据的处理和分析方法。
举例:
该数据集经过适当的缺失值处理,确保了数值和类别特征的一致性,降低了数据泄漏的风险。数值特征的缩放可以在KNN填补后通过相应的缩放器进行逆操作,适用于下游任务。原始映射和填补策略已记录在案,保持了数据处理过程的透明性。如需更多信息,建议参考Kaggle上的原始CIBMTR数据集。此预处理后的数据集为预测建模和探索性数据分析提供了优化的起点。