数据集概述
本数据集包含两个酒店的预订需求数据,分别为度假村酒店(H1)和城市酒店(H2)。H1包含40,060条预订记录,H2包含79,330条预订记录,覆盖2015年7月1日至2017年8月31日期间的所有预订情况,包括成功入住和取消的预订。
H1位于葡萄牙阿尔加维度假区,H2位于葡萄牙里斯本市区。数据覆盖来自125-166个不同国家的客户预订记录。
数据结构
两个数据集采用相同的数据结构,共包含31个变量字段。每条记录代表一个酒店预订,数据时间点设定为预订到达日期的前一天,以防止未来信息泄漏。
主要字段定义
ADR:平均日房价,通过总住宿交易金额除以总住宿夜数计算
IsCanceled:预订是否被取消的二分类变量
LeadTime:从预订录入系统到到达日期的天数
StaysInWeekendNights/StaysInWeekNights:周末和工作日住宿夜数
Adults/Children/Babies:成人、儿童和婴儿数量
CustomerType:客户类型,包括合同、团体、散客和散客团等四种类型
DepositType:押金类型,包括无押金、不可退还和可退还三种
Country:客户来源国家,采用ISO 3155-3:2013格式
MarketSegment:市场细分,包括在线、线下、直销、团体等
DistributionChannel:预订分销渠道
ReservedRoomType/AssignedRoomType:预订和实际分配的房间类型
数据特征
数据来源于酒店物业管理系统的SQL数据库,通过TSQL查询直接提取。部分变量来自预订变更日志,确保数据时间一致性。分类变量中的"NULL"值表示"不适用"而非缺失值。数据集包含原始数据和预处理数据的混合格式。
适用场景
适用于收益管理研究、机器学习模型开发、预订取消预测、客户细分分析、季节性分析、需求预测等商业智能和学术研究场景。可用于算法基准测试、分类和聚类问题的教学应用。