印度五大城市2019年航班价格预测数据集
数据来源:互联网公开数据
标签:航班价格, 印度, 线性回归, 航空, 价格预测, 时间序列, 机器学习, 预处理数据
数据概述:
本数据集包含印度五大城市(班加罗尔、金奈、德里、加尔各答、孟买)2019年的航班价格信息,旨在为线性回归模型的开发和应用提供便利。数据经过精心整理,并预先进行了处理,以方便模型训练和预测。数据集包含以下关键字段:
* Airline (航空公司):运营航班的航空公司名称。
* Date_of_Journey (出发日期):航班计划出发的日期。
* Source (出发地):航班出发的城市。
* Dep_Time (出发时间):航班的出发时间。
* Destination (目的地):航班到达的城市。
* Price (价格):航班的对应价格。
为了简化模型应用,数据已进行预处理,并创建了以下附加字段:
- Airline_encoded (航空公司编码):航空公司的数值编码,增强模型兼容性。
- Source_encoded (出发地编码):出发城市的数值编码。
- Destination_encoded (目的地编码):目的城市的数值编码。
- Date (日期):从'Date_of_Journey'中提取的日。
- Month (月份):从'Date_of_Journey'中提取的月。
- Year (年份):从'Date_of_Journey'中提取的年。
- Hour (小时):从'Dep_Time'中提取的小时。
- Minutes (分钟):从'Dep_Time'中提取的分钟。
数值编码旨在提高模型的可解释性和兼容性,为类别变量提供标准化的表示。数据集经过精心清洗,非常适合用于学习目的。
编码值:
出发地:
'Bangalore' (班加罗尔): 0,
'Chennai' (金奈): 1,
'Delhi' (德里): 2,
'Kolkata' (加尔各答): 3,
'Mumbai' (孟买): 4
航空公司:
'Air Asia' (亚洲航空): 0,
'Air India' (印度航空): 1,
'GoAir' (够航空): 2,
'IndiGo' (靛蓝航空): 3,
'Jet Airways' (捷特航空): 4,
'Jet Airways Business' (捷特航空商务): 5,
'Multiple carriers' (多家承运商): 6,
'Multiple carriers Premium economy' (多家承运商高级经济舱): 7,
'SpiceJet' (香料航空): 8,
'Trujet' (翠鸟航空): 9,
'Vistara' (维斯塔拉航空): 10,
'Vistara Premium economy' (维斯塔拉高级经济舱): 11
数据用途概述:
该数据集适用于航班价格预测模型的开发、评估和优化,特别适合用于线性回归模型的训练和测试。研究人员可以使用该数据分析影响航班价格的因素,例如航空公司、出发地、目的地、出发时间、日期等。此外,该数据集也可用于教育目的,帮助学生理解数据预处理、特征工程和模型构建的流程。