爱丁堡Airbnb房源价格与特征分析数据集-2019年6月至2020年6月

爱丁堡Airbnb房源价格与特征分析数据集-2019年6月至2020年6月 数据来源:互联网公开数据 标签:Airbnb,爱丁堡,房源,价格,租赁,住宿,数据分析,机器学习,时间序列

数据概述: 本数据集包含了苏格兰首府爱丁堡Airbnb房源的详细信息,涵盖了2019年6月25日至2020年6月24日期间的数据。数据集包含12个文件,其中2个为原始数据文件,其余10个为经过处理的预处理数据文件。原始数据未经清洗,可用于数据清洗、数据工程、探索性数据分析(EDA),以及用户自定义的算法应用。预处理数据则为用户提供了快速进行回归分析的便利,无需花费时间进行数据预处理。

原始数据:

original_data_listings.csv (13,245行, 106列) 包含13245个Airbnb房源的信息,涵盖了数据收集期间内的房源详细信息。提供了106个字段,如卧室数量、街区、取消政策、清洁费(在数据收集期间内取平均值,因为房东可以更改清洁费)。

original_data_calendar.csv (4,834,568行, 7列) 包含每个房源在数据收集期间每一天的状态数据,例如,在给定日期,房源是否被占用以及每晚的价格。

预处理数据:

如果用户希望直接运行一些回归模型(预测数值变量),可以使用预处理数据。训练数据和测试数据可以直接使用。它们被分别预处理以防止数据泄露。预处理数据中的目标变量是数据收集期间的每晚平均价格。

预处理数据文件的用途一目了然。例如,targets_train.csv包含用于训练的目标变量,而inputs_numerical_test.csv包含用于测试的数值预测特征。

请注意,数值特征和类别特征存储在单独的文件中。用户需要在模型训练之前将它们合并。数值特征和类别特征的DataFrame索引是相同的,因此用户可以简单地使用基于id的合并或连接。数值特征和类别特征存储在单独文件中的原因是,其中一个类别特征neighbourhood(基数=111)以3种不同的方式处理。用户可以根据此特征的编码选择要使用的类别数据版本:

版本1:OneHot编码 版本2:目标/均值编码(具有加性平滑) 版本3:替换为一个新特征:avg_price_per_bedroom_by_neighbourhood,即每个卧室在街区内的平均价格。

数据用途概述: 该数据集适用于Airbnb房源价格预测、租赁市场分析、城市住宿环境研究等多种应用场景。研究人员可以使用原始数据进行深度的数据清洗和特征工程,探索影响房价的关键因素;也可以使用预处理数据快速构建回归模型,预测房价;市场分析师可以利用数据分析爱丁堡的租赁市场趋势,评估投资回报率;城市规划者可以基于数据了解不同街区的住宿需求和供给情况,优化城市规划。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 28.44 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。