德国COVID-19疫情数据集

德国COVID-19疫情数据集

数据来源:互联网公开数据

标签:COVID-19, 德国, 疫情监测, 患者数据, 事件追踪, 政策分析

数据概述:
本数据集由德国罗伯特·科赫研究所(Robert Koch-Institute, RKI)提供,包含从疫情开始至今的患者级(或接近患者级)的详细信息记录。数据集分为多个版本,每个版本在不同时间点下载,并以日期命名(如 mdd.csv)。数据中包含了患者的基本信息、地理位置、年龄、性别、病例状态(确诊、死亡、康复等)以及病例报告日期等关键字段。数据字段以德语命名,并附有详细解释,部分字段存在冗余信息(如州名与州ID、县名与县ID等)。此外,数据集还包含病例的新增状态(如新增确诊、新增死亡、新增康复等)以及感染开始日期的参考信息。

数据用途概述:
该数据集适用于疫情监测、患者轨迹分析、公共健康研究、政策评估以及事件追踪等多种场景。研究人员可以利用此数据集分析疫情的传播趋势、不同地区的感染动态以及患者的基本特征;公共卫生部门可以利用数据追踪病例的上报情况,评估防控措施的效果;政策制定者可以基于数据评估疫情应对政策的实施效果;新闻媒体和公众也可以通过数据了解疫情的实时进展。此外,数据集还可用于教育和学术研究,帮助学习者理解疫情监测和信息管理的实践过程。

字段定义:
以下是数据集中部分关键字段的详细说明:
- ObjectId 或 FID: 每条记录的唯一标识符,但由于数据版本之间存在变动,该字段的实际用途有限。
- IdBundesland: 州的ID,表示患者所在州的编码,冗余字段,与州名字段信息重复。
- Bundesland: 州名,为州ID的详细描述,冗余字段。
- Landkreis: 县名,表示患者所在的县,冗余字段,与县ID字段信息重复。
- Altersgruppe: 年龄分组,分为6个区间或“unbekannt”(未知)。
- Geschlecht: 性别,分为男性(M)、女性(W)或“unbekannt”(未知)。
- AnzahlFall: 病例数,表示该行记录中的确诊病例数量。
- AnzahlTodesfall: 死亡病例数,表示该行记录中的死亡病例数量。
- Meldedatum: 报告日期,表示病例被卫生部门(Gesundheitsamt)上报的日期。
- IdLandkreis: 最详细的地理位置信息,前两位数字代表州ID,后三位代表县ID。
- Datenstand: 数据集创建日期,冗余字段,其值在每个版本中相同,已包含在文件名称中。
- NeuerFall: 新增确诊病例,取值为0(当前文件和前一天文件中都存在的病例)、1(仅在当前文件中存在)或-1(仅在前一天文件中存在)。
- NeuerTodesfall: 新增死亡病例,取值与新增确诊病例类似,但包含额外的-9值,表示该病例既不在当前文件也不在前一天文件中。
- Refdatum: 参考日期,表示病例的发病日期(如已知),否则为报告日期。
- NeuGenesen: 新增康复病例,取值规则与新增死亡病例类似。
- AnzahlGenesen: 康复病例数,表示该行记录中的康复病例数量。
- IstErkrankungsbeginn: 是否为感染开始日期,取值为1(Refdatum为发病日期)或0(否则)。
- Altersgruppe2: 更细分的年龄分组,以5年为一个区间,但并非所有版本数据中都包含此字段。

注意:
- 数据版本之间可能存在字段定义或索引的未文档化变更,特别是2020年4月8日至4月28日期间的数据。用户在使用数据时需注意版本差异,确保数据的一致性和准确性。
- 数据集的某些字段存在冗余,如州名与州ID、县名与县ID等,建议使用更简洁的字段进行分析。
- 数据集的更新维护较为繁琐,用户在使用时需自行确保数据的时效性。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 14, 2025, 11:51 (UTC)
创建于 四月 14, 2025, 11:50 (UTC)