加州住房数据集-县名与距离信息1990年-abdallahsamman

加州住房数据集-县名与距离信息1990年-abdallahsamman 数据来源:互联网公开数据 标签:加州,住房价格,人口统计,机器学习,地理信息,数据清洗,教育

数据概述: 本数据集是加州1990年人口普查数据的修改版本,源自Pace和Barry在1997年发表的研究论文《稀疏空间自回归》。该数据集非常适合用于机器学习算法的入门学习,因为它需要基本的数据清洗,具有清晰的变量名称,并且大小适中,平衡了简单性和复杂性。

数据提供了加州特定区域房屋的详细信息,以及从1990年人口普查中得出的汇总统计数据。虽然该数据集可能不适合当前房价预测(如Zillow Zestimate数据集),但它为教授机器学习的基本原理提供了可访问的平台。

数据集中做了若干修改,加入了“Cities”列,使用Geopandas进行添加。同时,基于经度和纬度坐标使用哈弗辛公式计算了距离,测量单位为公里。

数据字段如下: - 中位房价:街区房屋的中位房价(美元) - 中位收入:街区家庭的中位收入(万美元) - 中位年龄:街区房屋的中位年龄(年) - 总房间数:街区的总房间数 - 总卧室数:街区的总卧室数 - 人口:街区的总居民数 - 户数:街区的总家庭数 - 纬度:表示房屋北向距离(数值越大表示越靠北) - 经度:表示房屋西向距离(数值越大表示越靠西) - 到海岸距离:到最近海岸点的距离(米) - 到洛杉矶距离:到洛杉矶中心的距离(米) - 到圣地亚哥距离:到圣地亚哥中心的距离(米) - 到圣何塞距离:到圣何塞中心的距离(米) - 到旧金山距离:到旧金山中心的距离(米) - 所在县:家庭所在的县

该数据集由数据科学家fedesoriano进行增强,添加了五个新特征并进行了数据清洗。原始数据集(不包含距离特征)可在提供的链接中找到。

数据用途概述: 该数据集适用于机器学习教学、房价预测练习、数据可视化和地理信息系统应用等多种场景。学习者可以利用此数据学习机器学习的基本概念;研究人员可以利用此数据进行初步的数据探索;城市规划师可以基于数据进行城市规划的相关研究。此外,数据集也适合用于教育和培训,帮助学习者理解房屋价格与地理位置之间的关系。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.97 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。