新冠疫情全球预测增强数据集-2020年8月
数据来源:互联网公开数据
标签:新冠疫情,预测,流行病学,时间序列,人口统计,健康数据,死亡率,发病率,logistic回归
数据概述:
本数据集是针对“新冠疫情全球预测(第1周)”竞赛的增强数据集。原始训练集和测试集均已通过添加相同国家的数据进行增强。数据中增加了针对“确诊病例”和“死亡病例”的Logistic回归拟合,并附带协方差信息。此外,还整合了联合国公开的家庭规模和人口数据,以及来自Our World in Data的部分健康数据。
数据集中包含以下重要字段,这些字段对于新冠疫情的预测具有重要意义:
days_since_first100cases:自首次出现100例确诊病例以来的天数。
y_Fatalities:死亡病例的Sigmoid函数估计值。
y_ConfirmedCases:确诊病例的Sigmoid函数估计值。
life_expectancy_years:预期寿命(年)。
veg_supply_person_kg_year:人均蔬菜供应量(公斤/年)。
respiratory_infections_death%:呼吸道感染死亡人数占总人口的百分比。
deaths_from_smoking%:吸烟导致的死亡人数占总人口的百分比。
young%:年轻人占总人口的百分比。
old%:老年人占总人口的百分比。
population:总人口。
fem%:女性人口占比。
number_doc_per1000:每千人拥有的医生数量。
hh%1:单人家庭占比。
hh%2-3:2-3人家庭占比。
hh%4-5:4-5人家庭占比。
hh%6+:6人及以上家庭占比。
数据用途概述:
该数据集主要用于新冠疫情的预测模型构建、疫情传播趋势分析、不同国家疫情发展对比研究等。研究人员可以利用此数据探索影响疫情传播的因素,评估不同国家采取的防控措施的效果,并进行预测模型的优化。此外,该数据集也适用于流行病学研究、公共卫生政策制定以及相关教育培训。