数据集概述
本数据集为美国CMS 2022财年家庭医疗保健机构(HHA)成本报告的清洗与验证版本,包含10564行、201列的结构化数据,覆盖机构基本信息、成本数值等内容,同时提供验证指标、处理脚本及说明文档,支持可复现分析。
文件详解
- 核心数据文件:
- CostReporthha_Final_22_clean.csv:CSV格式,清洗后的主数据集,包含10564行、201列,字段覆盖机构ID、名称、地址、成本数值等
- targets_long.csv:CSV格式,机构年度运营成本表,字段包括provider_id(机构ID)、fiscal_year(财年)、measure_name(指标名称)、value(数值)、unit(单位)
- DATA_DICTIONARY.csv:CSV格式,数据字典,字段包括column(列名)、type(类型)、role_if_any(角色)、description(描述)
- labels.csv:CSV格式,标签文件
- 验证文件:
- VALIDATION/hha22_validation.json:JSON格式,验证指标文件,包含roles、metrics、inputs等键
- VALIDATION/hha22_issues.csv:CSV格式,验证问题样本文件
- 处理与说明文件:
- PROCESSING/目录:包含数据清洗、验证的Python脚本及配置文件
- README.md:Markdown格式,数据集说明文档
- LICENSE.txt:文本格式,CC BY 4.0许可文件
- 可选文件:
- fig_total_operating_expenses_hist.png:PNG格式,运营成本直方图
数据来源
CMS Provider Data Catalog
适用场景
- 卫生经济学分析:开展机构年度成本、运营效率等健康经济学研究
- 数据处理基准:作为清洗与验证流程的基准数据集,评估数据处理方法
- 教学应用:用于可复现数据管理、卫生数据处理等课程的教学案例
- 医疗服务评估:分析家庭医疗保健机构的成本结构与服务特征