加州住房数据集-县名与距离信息1990年-abdallahsamman
数据来源:互联网公开数据
标签:加州,住房价格,人口统计,机器学习,地理信息,数据清洗,教育
数据概述:
本数据集是加州1990年人口普查数据的修改版本,源自Pace和Barry在1997年发表的研究论文《稀疏空间自回归》。该数据集非常适合用于机器学习算法的入门学习,因为它需要基本的数据清洗,具有清晰的变量名称,并且大小适中,平衡了简单性和复杂性。
数据提供了加州特定区域房屋的详细信息,以及从1990年人口普查中得出的汇总统计数据。虽然该数据集可能不适合当前房价预测(如Zillow Zestimate数据集),但它为教授机器学习的基本原理提供了可访问的平台。
数据集中做了若干修改,加入了“Cities”列,使用Geopandas进行添加。同时,基于经度和纬度坐标使用哈弗辛公式计算了距离,测量单位为公里。
数据字段如下:
- 中位房价:街区房屋的中位房价(美元)
- 中位收入:街区家庭的中位收入(万美元)
- 中位年龄:街区房屋的中位年龄(年)
- 总房间数:街区的总房间数
- 总卧室数:街区的总卧室数
- 人口:街区的总居民数
- 户数:街区的总家庭数
- 纬度:表示房屋北向距离(数值越大表示越靠北)
- 经度:表示房屋西向距离(数值越大表示越靠西)
- 到海岸距离:到最近海岸点的距离(米)
- 到洛杉矶距离:到洛杉矶中心的距离(米)
- 到圣地亚哥距离:到圣地亚哥中心的距离(米)
- 到圣何塞距离:到圣何塞中心的距离(米)
- 到旧金山距离:到旧金山中心的距离(米)
- 所在县:家庭所在的县
该数据集由数据科学家fedesoriano进行增强,添加了五个新特征并进行了数据清洗。原始数据集(不包含距离特征)可在提供的链接中找到。
数据用途概述:
该数据集适用于机器学习教学、房价预测练习、数据可视化和地理信息系统应用等多种场景。学习者可以利用此数据学习机器学习的基本概念;研究人员可以利用此数据进行初步的数据探索;城市规划师可以基于数据进行城市规划的相关研究。此外,数据集也适合用于教育和培训,帮助学习者理解房屋价格与地理位置之间的关系。