数据集概述
本数据集包含巴西卫生部SINAN-TB系统2001-2023年结核病患者的临床、实验室、社会人口及 territorial 信息,提供原始匿名数据及A-E五种预处理场景数据,含衍生变量与市政人类发展指数,支持结核病治疗结局预测研究。
文件详解
该数据集由多个目录和文件组成,具体说明如下:
- 根目录文件:
- README.txt.rtf:RTF格式的说明文档,可能包含数据集背景、使用方法等信息
- original/目录:
- SINANTB_01a23.csv.zip:ZIP压缩包,包含2001-2023年SINAN-TB原始可匿名化数据
- idhm/目录:
- IDH_MUNICPIO_2010.csv:CSV格式文件,包含2010年巴西各市政的人类发展指数数据,字段包括ano(年份)、id_municipio(市政ID)、expectativa_vida(预期寿命)等
- preprocessed/目录:
- A_Sinantb_desfechos_03-14-2025_20-42-05.csv:场景A预处理数据,CSV格式
- B_Sinantb_desfechos5anos_03-24-2025_17-59-14.csv:场景B预处理数据,CSV格式,字段含CS_SEXO(性别)、CS_RACA(种族)、TRATAMENTO(治疗情况)等
- C_Sinantb_desfechos5anosEspecialistasELiteraturaDias_05-10-2025_16-17-15.csv:场景C预处理数据,CSV格式
- D_Sinantb_desfechos5anosIDH_05-20-2025_00-15-45.csv:场景D预处理数据,CSV格式
- E_Sinantb_desfechos5anosIDH_05-20-2025_00-15-45.csv:场景E预处理数据,CSV格式
- tabpfn/目录:
- E_results_train_combinacoes.csv:CSV格式文件,场景E中TabPFN技术的训练测试结果
- E_results_test_combinacoes.csv:CSV格式文件,场景E中TabPFN技术的测试结果
数据来源
巴西卫生部
适用场景
- 结核病临床研究:分析患者特征与治疗结局的关联
- 公共卫生政策制定:基于人口与 territorial 数据优化结核病防控策略
- 机器学习模型开发:利用预处理数据训练结核病治疗结局预测模型
- 社会因素影响研究:探究市政人类发展指数对结核病治疗的影响
- 数据预处理方法验证:对比不同预处理场景(A-E)对模型性能的影响